王亚楠:基于强化学习的自动码率调节

  • 时间:
  • 浏览:2

4、基于强化学习的自动码率调节

今天的主要内容分一一四个多 方面,第一,介绍一下那些叫自适应码流,在自适应码流中我会着重介绍为那些要用自动码率调节。然还会给人们儿介绍一一四个多 很清晰的评价标准来衡量人们儿做的自动码率调节。第二,介绍强化学习,为何让在座的大部分人对强化学习的了解应该也有太少太少太少太少有。第三,基于强化学习的自动码率调节,在这里会简单介绍一下为何会么会样用强化学习来实现自动码率调节,自动码率调节现在为何让有你是什么算法了,但那些算法也有你是什么及的优势,当然也有你是什么及的短处,都没法为那些人们儿要用强化学习来做?以及人们儿在用强化学习做自动码率调节的日后,它应该是采用两种要怎样的技术架构,以及有那些要实现的技术要点?

A: 输出码率是不连续的,为何让自适应码率它的码率也有固定档位的,它会有几档之分,它也有连续的码率的。

Q1:亚楠老师,有一位同学问到,请别问人们儿你是什么是用在点播上的吗?有应用在直播吗?

首先,训练数据的埋点是需要客户端来投递的;其次是Reward的选择,为何让强化学习一一四个多 很重要因素只是 需要给它一一四个多 Reward,那Reward的选择会直接影响到后续训练出来模型的效果;再只是 On-Policy还是Off-Policy的训练妙招。

2) 服务器端实现码率预测功能

都没法为那些要用强化学习完成自动码率调节呢?

强化学习目前是AI领域中运用非常广泛的一一四个多 技术,主只是 在预测,只是 做决策方面比较擅长。它主要包括一一四个多 部分,一一四个多 是Agent,即最终做决策的一一四个多 单位,另外一一四个多 只是 Environment,你是什么环境也只是 Agent所面临的所有输入。整个流程只是 在每一步,Environment会给Agent一一四个多 输入,你是什么输入也只是 状况。在Agent取得你是什么状况日后,会采取一定的动作。在采取你是什么动作日后,你是什么Agent会获得一定的奖励,也只是 Reward,那你是什么Agent就会观察我现在的状况,我所采取的动作是那些,我所获得的Reward是那些,只是 在经过一系列的训练日后,它要能使得我日后再采取你是什么动作的日后,我所能获得的奖励只是 最高的,只是 只是 一一四个多 过程。

1)传输形式:HLS/DASH/Smooth Streaming

A: 这是个好大大问题,人们儿你是什么工作只是 和mao合作者妙招的,一现在开始是人们儿和他合作者妙招的,人们希望要能用你是什么业界的数据来证明一下,只是 们在做你是什么事情的日后,为何让做研究的模型,直接搞掂来用到人们儿线上话语,是有太少太少太少太少有方面是需要进行改动的,调节的。只是 们最现在开始的思想是借鉴的毛的你是什么Pensieve的一一四个多 思想,最后加入了太少太少太少太少人们们儿的思考,以及针对人们儿在实际的工作中遇到的太少太少太少太少有大大问题进行了正确处理。那基本思想只是 Pensieve,人们儿是和他进行一一四个多 合作者妙招的。Performance,为何让人们儿是在你是什么模型之加带入了太少太少太少太少人们们儿你是什么及的你是什么理解,还有你是什么你是什么因素只是 做的,具体的performance数据数据需要关注人们儿后续的技术分享。

2) 码率调节算法:ABR

模型训练好了日后,需要进行一一四个多 评估,评估好了日后,人们儿会选择人们儿评估效果最好的那个模型来使用,在你是什么过程人们儿会选择用A/B Test的架构来选择最优模型。A/B Test的结果是选择最终模型的关键;C/S架构更适合做A/B Test,为何让服务器端是需要很容易控制的,人们儿在CS只是 两种架构上来做A/B Test是比较简单方便的。

用户在观看一一四个多 视频的日后,需要将视频内容从服务器上取到本地要能观看,在你是什么过程中为何让用户的网络环境和设备千差万别,要怎样在一一四个多 僵化 的环境中给用户提供一一四个多 清晰流畅的视频,自适应码流只是 一一四个多 很好的正确处理妙招。为何让它需要根据用户的网络状况来为用户提供不同的码率节目,它要能更充分的利用用户的数率,根据用户的数率提供不同的码率节目,相比较于日后单一的码率节目,它所提供的节目会更清晰流畅。

tnti  

《有奖留言》第二期

Q5:客户端集成模型,人们感觉它的性能是要怎样的?

当在刚开播的日后用户的网络环境为何让不太好,为何让是Buffer中都没法内容,这时先给他一一四个多 比较低的码率,当用户的网速起来日后,为何让当它的Buffer慢慢的变多日后,人们儿会给他提供一一四个多 比较高的码率,只是 话语,他需要切换到只是 一一四个多 更高的码率,为何让用户的网速变得更好,都没法人们儿也需要给他提供更高清的码率,为何让你是什么在切换的日后,人们儿会选择一定的时间点,你是什么时间点也只是 人们儿在自适应码流中所称为的关键帧。都没法人们儿要怎样根据用户的当前状况来选择下一一四个多 要播放码率呢?目前采用的几次通用的方面,主只是 数率,还有目前为何让缓存了几次的数据,设备的类型,以及当前设备所能支持的码率。当协议选择日后,就要通过自适应码流的一一四个多 非常关键的技术,也就叫自适应码率调节来根据用户的网络环境来进行码率的调节。

1) 客户端实现码率预测功能

在利用A/B Test来评估最优模型的过程也会遇到太少太少太少太少有的大大问题:

在做成基于强化学习的自动码率调节后首先需要考虑一一四个多 大大问题,即你是什么过程是放入去客户端还是服务器端来做?

基于Buffer和数率的算法,也只是 把这两种因素综合考虑起来。

2.3 现行自动码率调节算法

2.1 介绍自适应码流

客户端和服务器端进行沟通的日后,人们儿需要先经过一一四个多 算法的选择器,需要用一一四个多 服务器来做埋点,来实现A/B Test以更好的评估训练出来的模型,在你是什么算法服务器上方,只是 对应的一一四个多 一一四个多 的强化学习模型的服务器,通过一一四个多 算法埋点器,就要能决定一一四个多 模型它所针对那些用户。一起Selector也需要知道它所埋点到的不同模型的数据是那些;为何让通过你是什么A/B Test Selector服务器,将埋点到的数据通过QoS Scorer服务器来进行最终的计算,只是 就实现了一一四个多 A/B Test 的过程。

你是什么公式考虑到了刚才说的一一四个多 方面的纬度,当然也会加你是什么调节因子。再者只是 人们儿为何让想做上线话语,需要考虑的一一四个多 重要方面只是 成本控制。为何让人们儿提高QoS的最终目的,只是 希望用户要能更长时间观看人们儿的视频,只是 会为人们儿带来更高的收益,为何让为何让人们儿完整版不考虑数率来为用户提高更高的码率,人们儿整体的数率的成本也会变得都没法高,只是 为何让原困人们儿所取得的收益为何让并缺陷以覆盖所付出的成本,太少太少太少太少有为何让要上线话语,成本控制也是需要考虑的一一四个多 重要方面。在你是什么评估模型中,它实在有太少太少太少太少有方面都都没法考虑到,一一四个多 是都没法考虑到卡顿的次数;另外一一四个多 ,它并也有用户观看体验直接的体现,只是 人们儿一一四个多 计算公式。

2)基于Buffer的算法:BOLA

人们儿项目组是隶属于爱奇艺网络终端部的,爱奇艺目前是国内最大的长视频网络公司,仅在过去的一年,共增加两千八百多部的电视剧,以及一万多部的电影,移动端的月活动量达到6.1亿,PC端也达到了3.6亿,是除了微信和QQ之外,月活动量最多的一一四个多 应用。人们儿用户的网络环境和设备是千差万别的,网络环境主要分为两种, PC端主要用的是有线连接,手机端大多是的是WiFi,数据网络用的也有太少,除了这两种还有你是什么网络,比如连上你是什么其它的手机热点等等。爱奇艺的终端也包括太少太少太少太少有种,现在最多的用户是手机用户,除了手机还有你是什么比较常见的如PAD和PC。另外,在中国的家庭上方,网络电视也是非常重要的一一四个多 方面。除此之外,还有一一四个多 特殊的应用——奇艺果,这是人们儿你是什么及推出的一一四个多 很适合连接到网络电视上,需要将你手机上内容完整版在电视上进行播放的一一四个多 工具,效果很好为何让也很便宜。人们儿组经常致力于用技术手段为用户提供更清晰流畅的观看体验,下面为人们儿介绍的自适应码率调节只是 提升观看体验的两种手段。 

https://www.baijiayun.com/web/playback/index?classid=1100718543296100&session_id=2011007190&token=vXamnizuU6dg5tXwrQlPW6an_eFRTsE-RX2EUXwv2bLyp54lF984rOVN2zjNT9VCwX5XhtNXtMuMCTpCPak4Cg

另外一一四个多 大大问题,经过模型训练后,要怎样选择一一四个多 最优模型呢?

A: 客户端集成模型人们儿也有评估,最终选择出来效果日后,人们儿实在影响应该不想很大,很重是对PC端,当然对你是什么低端的安卓机为何让会有你是什么影响,具体的你是什么低端的安卓机人们儿要暂且用只是 两种在客户端实现的妙招,人们儿上方还需要继续评估。对于你是什么比较高端的安卓机,还有iPhone6手机手机5应该是都没法那些影响。僵化 度,看你为何会么会说,为何让只是 一一四个多 事情,除了网络和Buffer以外,只是 你是什么及们儿所考虑到的,比如说成本的因素,等等只是 你是什么因素,人们儿的维度是比较少的,并都没法太少太少太少太少有,太少太少太少太少有它的僵化 度也并也有很高,只是 话语,对于人们儿的放入去客户端来做,实在是有优势的。人们儿现在固然会首先选择C/S架构,主只是 为了先做A/B Test,做完A/B Test日后,人们儿能最终选择一一四个多 最优的一一四个多 模型。

简单解释一下,清晰度只是 用户直观看后的码率的清晰度,比如说是720P,还是10100P;另外,流畅度比较好理解,用户倘若不卡,它的观看只是 流畅的,为何让它卡顿话语,卡的时间越长,那用户为何让就更多的会不再看你是什么视频了;再一一四个多 只是 平滑度,为要怎样果在非常频繁的切换话语,用户要能很清晰的感知到你是什么切换过程,也是对用户的观看体验也是有个影响的。



2) 选择合理的训练妙招

今天的主要内容:

这就要实现一一四个多 BS架构,自动码率调节功能是由客户端和服务器端一起来做的,服务器端来决定选择哪个码率,为何让将你是什么码率再发送给客户端。

HLS是iPhone6手机手机5公司推出的一一四个多 传输协议,Smooth Streaming是微软推出的一一四个多 标准协议,DASH是人们儿目前用的最多的开源的传输形式。人们儿需要通过码率调节算法来选择要怎样通过用户的网络状况来提供不同码率,它整个流程是在节目生产的日后就会被编码为不同的码率,根据用户的不同状况,比如说在PC观看还是在手机观看,以及用户的网络状况不同,会给用户埋点不同码率的节目,使得用户在观看的日后要能不卡且清晰度最高。

直播回放:

下面来看一一四个多 实时多模型的A/B Test架构图:

本文来自 爱奇艺 技术产品中心 资深工程师 王亚楠在LiveVideoStackCon 2018热身分享,并由LiveVideoStack埋点而成。在分享中,王亚楠分别介绍了自动码率调节的实现过程、现行算法与评价标准,并重点介绍了基于强化学习的自动码率调节算法的技术架构与实现要点。

Q4:在实战中有 都没法部署过mao的Pensieve,在相同的State&Action下,Performance是为何会么会样的?

同一一四个多 用户的数率在不同的时间段是会有一定的波动的,为何让人们儿为用户只提供单一码率话语,那在一部分时间之内会造成用户很大的数率浪费,只是 用户的观看体验并也有很好,在一定观看时间内,当数率小于码率的日后,会造成用户观看的日后非常卡,而卡顿是对用户的观看体验影响最大的一一四个多 方面。

4) 成本控制

人们儿的目标只是 在尽量不产生卡顿的基础需要够最大化的尽量利用用户的数率,一起尽量减少人们儿的切换次数。基于只是 一一四个多 标准,人们儿形成了一一四个多 公式:

基于数率的算法主只是 通过用户前一段时间的网络变化,为何让来预估后续为何让的网络数率,为何让根据预估的数率,来决定你是什么用户所适合的码率。

1)基于数率的算法:FESTIVE

2、自适应码流

人们儿需要考虑的非常清楚,人们儿为用户提供更清晰的视频,收益有无会大于支出。

Q2:亚楠老师需要具体的说一下QoS的评分吗?

3. 基于强化学习的自动码率调节

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/81295311

Q3:输出的码率是连续的吗?

1) 码率预测模型的选择

1、关于人们儿

 自适应码流包括一一四个多 方面:

强化学习它有太少太少太少太少有模型,为何让码率预测它的状况是个连续的过程,太少太少太少太少人们们儿选择DRL,DRL对连续的输入输出还会有一一四个多 比较好的结果。

为何让强化学习所正确处理的大大问题只是 马尔科夫过程的大大问题,ABS大大问题又正好是一一四个多 马尔科夫过程的大大问题,为何让ABS实在是根据人们儿当前的状况来选择下一一四个多 码率,它和日后的状况也有不相关的。为何让人们儿采用强化学习来做选择下一一四个多 码率,人们儿把数率,Buffer,还有等等你是什么播放状况来当作我的状况,只需要把那些状况输入我的Agent,不想要对数率进行预测了,为何让人们儿现在的技术为何让需要满足,提供你是什么数据后,强化学习自动训练,为何让针对不同的场景需要使用不同模型,只是 话语,只是想进行调参。

每期中奖名单会在下一期《有奖留言》的文章中提前大选

A: 卡顿比,你是什么数据都比较细了,人们儿需要说一下,首先是码率分布话语,码率的质量是有一一四个多 很明显的提升的,包括人们儿的720P和10100P的占比还会有一一四个多 非常明显的提升,相对应的卡顿比的变化倒也有很明显。我在这里固然提高到,提了太少太少太少太少有次那些成本控制,只是 人们儿观测到,为何让人们儿的清晰度,只是 高码率的占比会比较大的日后,我的数率的增长实在是非常大的,太少太少太少太少有你是什么数率的变化也是比较大的。下载数率,当然下载数率人们儿倒都没法特意的去评估,为何让人们儿实在,人们儿从人们儿评估的层厚来看,卡顿比为何让都没法增加话语,它的下载数率是要能支撑他在下载的码率。

人们儿现在很常用的你是什么模型它都没法考虑卡顿次数的因素,太少太少太少太少有需要考虑你是什么;再只是 人们儿会增加你是什么用户反馈的数据来直观的表现出用户有无喜欢人们儿只是 给他做的自动码率调节,为何让有的用户暂且喜欢。

埋点 / LiveVideoStack

文 / 王亚楠

感谢人们儿经常以来的认可与支持,LiveVideoStack现推出《有奖留言》活动。人们儿为何让在每周的5篇图文中选出1-2篇精品文章,开启有奖评论、留言活动。

为了使用户观看日后要能流畅,自适应码流要能根据用户的不同的网络环境和不同的设备类型,在特定的时间段内来选择特定的码率,使得用户在观看的日后既能不卡,又能提供在他的网络环境所能容纳的最高的码率节目,只是 用户观看下来就会比较清晰、流畅。

Q6:比如卡顿比各播放码率分布在部署前后的变化,总数率的变化,下载数率的统计等那些是要怎样的?

有观点、有想法的留言更容易获得奖品

3)综合考虑Buffer和数率的算法:MPC

上期中奖名单

活动规则

人及优缺点:

A: 人们儿现在是在点播上用,不过会计划部署到直播端,线上现在也是有用户在用,为要怎样果是人们儿的灰度用户,你为何让会观看后只是 一一四个多 效果。最后的效果也是我刚才介绍的一部分,这上方会有一一四个多 评分,评分最高只是 用强化学习来做自动码率调节的效果,相比于你是什么的得分是你是什么你是什么模型的得分,目前人们儿来看用强化学习来做只是 的事情还是需要的,相对于强化学习来说,自动码率调节还有无一一四个多 非常简单的事情。

本期奖品

A: QoS评分人们儿现在会有太少太少太少太少有种了,我现在翻到那页PPT,人们儿现在的QoS评分,目前你是什么QoS评分是人们儿做得一一四个多 Reward,人们儿最终在做,我刚才给的那一幅图上方,会加太少太少太少太少有你是什么的因素,我这里的卡顿次数,还有用户观看的体验的只是 一一四个多 得分,在这里定义的QoS是清晰度的得分,还有流畅度的得分,平滑度的得分,这三项结合到一起,为何让人们儿你是什么及调节的只是 一一四个多 模型。

2.4 自动码率调节评价标准

3、强化学习

图文推送后48小时内,用户可在文章下留言,LiveVideoStack会对所有留言进行筛选并放出部分精选留言,被选出的精选留言即可参与《有奖留言》活动。LiveVideoStack会与文章作者或相关技术专家商议,从中选出最具层厚与影响力的留言,赠送精美礼品。

2. 强化学习

架构非常简单,人们儿倘若把你是什么模型训练好日后,拿到客户端来做,由客户端你是什么及来决定下一一四个多 码率就好了。

温馨提示

人们儿好,我是王亚楠,现在就职于爱奇艺终端网络部署,今天很高兴能在你是什么平台来跟人们儿讲述一下人们儿在爱奇艺做的你是什么很有意思的工作,你是什么工作主要只是 人们儿基于强化学习做的自动码率调节。

3) QoS评估

在考虑需要用两种新的算法日后,人们儿需要先决定,人们儿为何会么会样来评估人们儿做的你是什么自动码率调节,要评估它在那些状况下才有无好的,它的效果是需要接受的。现在评估主只是 从一一四个多 方面:清晰度,流畅度,平滑度。

2.2 实现过程

5、Q&A

1. 自适应码流

基于Buffer是为何让用户的网络环境的变化最终会体现到用户的Buffer中,也只是 Buffer中缓存了几次数据,是受数率的影响的,都没法倘若基于Buffer,也需要决定我下一一四个多 将要选择的码率。