问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

短视频平台推荐算法(Micro-Video Recommendation)

创作时间:
作者:
@小白创作中心

短视频平台推荐算法(Micro-Video Recommendation)

引用
51CTO
1.
https://blog.51cto.com/u_15730109/9836439


短视频一般指长度在5分钟以内的视频内容。由于用户时间碎片化、移动互联网和智能手机的快速普及、制作门槛低等原因,短视频最近几年引起广泛关注。从推荐系统的角度考虑,如何设计一个推荐系统的目标,以及短视频迭代过程中沉淀的思考。短视频APP在向你展示一个大长腿/帅哥视频之前,通常既要预测你对这个视频感兴趣/不感兴趣,又要预测你会看多久?点赞还是不点赞?会不会偷偷收藏起来下次接着看?只有同时在这么多个维度都比较符合您的兴趣,短视频APP才会将这个视频推送到您的手机上。

一、背景

近几年来短视频平台逐渐发展,像快手、抖音等平台吸引了大批用户的使用。下图为典型的短视频应用的页面截图。由于短视频时长较短,内容主题丰富多样,用户通常会在很短时间内观看许多不同主题的短视频,同时用户的实时兴趣可能会不断发生变化。因此,对于短视频应用来说,其推荐系统如何针对用户的实时反馈做出更敏感准确的推荐,是十分重要的。

截至2022年12月,我国网络视听用户规模达10.40亿,超过即时通讯(10.38亿),成为第一大互联网应用。网络视听网民使用率为97.4%,同比增长1.4个百分点,保持了在高位的稳定增长


在推荐平台产品中存在三类角色:用户、创作者、广告主。推荐系统则需要帮助用户实现推荐和帮助创作者找到相应人群。

1)用户端:极致优化体验,满足用户千人千面的高度个性化消费需求。

2)创作者:让优质的内容得到更多的分发、留住创作者、实现内容优胜劣汰。

二、视频推荐系统的全貌

推荐分召回、粗排、精排、重排几个环节;在排序阶段,模型预估用户对内容的个性化偏好,比如,对上述各种用户反馈的预估值,然后,用机制策略将预估值融合成一个排序分,对视频排序,来提高正向反馈、减少负向反馈,提高用户体验。

创作者将内容上传至平台后,会进入统一的正排流程;用户打开APP请求时,系统会把所有相关的内容召回(显示、隐式等),然后通过粗排、精排、融合这三级漏斗,选出用户最喜欢的内容,最后通过机制调控呈现最终的内容。

三、短视频用户兴趣刻画

用户打开APP后,推荐的视频就会自动播放,喜欢就继续停留在此页面,不喜欢则划到下一条,在APP中这是一种新的交互形态,同时也给推荐带来了挑战:如何去刻画用户的画像?如何判定用户是否喜欢?

在自动播放这种新的交互形态下,我们将这种不喜欢就划走的行为定义为“伤害”,将观看一条视频时间较长或者完全观看完的行为定义为“满意”。推荐系统将采用(伤害、时长、完播)这三级信号来刻画用户的兴趣。

除了通过播放行为刻画用户兴趣外,关注、点赞、收藏等都是用户表达喜好的信号。在设计推荐系统的时候,要先理解产品,然后再去设计。对于短视频推荐系统的交互行为有如下信号,并将这些信号整理归类到下图四象限,并引入到推荐系统中。

此外,在推荐中,用户反馈分四类:

① 隐式正反馈,用户行为稠密,如用户在无意间的行为——播放时长、有效播放、播放完成率、完播、复播等;

② 显示正反馈,需要用户有意识地做出反馈,不同用户间的行为密度差异比较大,如收藏、下载、关注、点赞,发表正向评论等;

③ 隐式负反馈,用户行为稠密,如短播放、用户终止一次 session 等;

④ 显示负反馈,需要用户显式表达,如不感兴趣、负向评论、举报等。

四、多目标算法设计

推荐系统大多都是基于隐式反馈来做推荐,比如用户的点击、观看时长、评论、分享等,且不同隐式反馈表达了用户不同的喜好程度。如果仅仅以单目标对推荐结果进行衡量,会存在衡量不全面的问题。如视频场景,假设某个用户打开一个视频看了开头觉得不喜欢立马关掉,如果以点击为目标则体现的是用户感兴趣,但实际情况是用户对这个视频不感兴趣。从这个例子可以看出,在视频推荐中如果仅仅以点击为目标,可能忽视了用户更深层次的隐式反馈。因此,视频推荐除了关注用户点击,还需关注用户观看时长、分享等目标,期望通过多目标能更深入地挖掘用户兴趣,做更精准的推荐。

粗排/精排的个性化多任务学习模型,能预估 20 多个不同的预估值,如点击率、有效播放率、播放时长、点赞率、关注率等,那如何用它来排序呢?从多任务学习到多目标排序,中间有一个过渡,即如何把这些预估值融合成一个单一的排序分?快手推荐追求时长、点赞、关注、分享等多种目标,以及减少不感兴趣等负向反馈。通过合适的排序目标和机制设计,获得多目标的协同提升。下面,分别介绍这边 Stage1 的把不同的预估值做一个线性加权融合和 Stage2 的基于树模型的 ensemble 打分两阶段工作。

Stage1:手动公式融合

该方法的缺点是过于依赖规则设计;依赖人工调参,且维护成本高;固定权重,缺少个性化、场景化。

Stage2:树模型规则 Ensemble 融合

  • 使用 GBDT 模型,引入 pXtr、画像和统计类特征,拟合组合 label:
  • 采用加权 Logloss:
    上下滑无负样本,通过拷贝正样本实现对目标无偏估计等价于将叶子结点转换为打分规则,该方法的缺点是树模型表达能力有限,且无法 online learning。

Stage3:多目标算法模型

1)多目标建模

多目标建模从最开始基础的shared-bottom的DNN建模发展到MMOE,最后采用分人群MMOE,将N个推荐系统目标建模出来,在真正实现的时候,低、中、高三种活跃度专家分别训练,联合决策防止高活人群样本主导整个模型,从而保证系统的准确性。

特征工程环节

  • id类特征,由视频id、作者id等组成。
  • 商品泛化特征,主要来自于视频挂载的商品性质。例如,商品id、类目id、虚拟类目id、店铺id、品牌id、商品所属性别、商品所属购买力、商品标签等等。
  • 视频统计类特征,即视频在不同场景、类目、作者等维度下,统计的播放率、平均播放时长、有效播放率等等指标。
  • 视频内容特征,即关键帧图像特征、音频特征,可以对视频内容/风格进行更精细的刻画
  • 视频标签特征,即基于多分类模型的、可扩展的网状型的标签体系结构,覆盖视频所属的体感类目与泛内容维度的相关标签,这些标签的组合就是对视频内容的浓缩描述。目前主要产出了服饰领域的标签体系,正在不断完善中。

2)多目标融合排序

通过模型预估N个多目标后,需要将这些多目标融合到一起,常见的方法是做简单的多项式融合,这种是比较基础的方式,简单有效且易引入经验值。但缺点也很明显,需要经常调整且不能自适应。而现在发展到使用deepES的方式,即分场景个性化融合,每次通过扰动模型内部参数获得多组参数组合,然后根据设计的Reward来选择最优的参数;其特征引入设备类型、状态、刷新节奏等多种状态,逻辑图如下:

五、长期受益目标的推荐系统

前面讨论的推荐目标都是根据当前即将推荐出视频的消费情况来排序的,但我们把视角移到更长的时间序列上来。用户的消费分为过去、现在和将来三个阶段。对于过去的内容,可以把它当成模型训练的样本、刻画用户兴趣的特征。当下的推荐目标是:对于未来可能消费的内容,本质上是当前兴趣的“延续”;而当前兴趣可以看成对未来兴趣的“激发”,将未来消费内容价值归因到当前视频上,即未来长期价值(Long Term Value)。

通过下图方式设计LTV,举例:用户今天看到一个脱口秀视频的价值定义为V0,假设未来用户还会看此类视频V2、Vn,那么我们可以将V2、Vn的消费时长和消费价值归因于当前的V0,具体设计分为2步:1、找到相关内容、设计衰减因子;2、用模型拟合LTV。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号