问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

小红书推荐系统核心技术详解:从召回策略到排序模型

创作时间:
作者:
@小白创作中心

小红书推荐系统核心技术详解:从召回策略到排序模型

引用
CSDN
1.
https://blog.csdn.net/qq_43629945/article/details/134109883

推荐系统是现代互联网应用的核心技术之一,广泛应用于各类内容平台、电商平台和社交媒体中。它通过分析用户的行为和偏好,为用户推荐个性化的内容或商品,从而提升用户体验和平台的商业价值。本文将深入探讨推荐系统的原理和实践,重点介绍小红书推荐系统的相关技术细节。

推荐系统基础

基础概念

推荐系统的目标是从物品的数据库中选出几十个物品展示给用户。推荐系统决定给用户曝光什么内容,用户自己决定是否点击、滑动到底等。推荐系统的效果通常通过以下指标来衡量:

  • 短期消费指标:反映用户对推荐是否满意,如点击率、点赞率、收藏率、转发率等。
  • 北极星指标:衡量推荐系统好坏最重要的指标,如日活用户数(DAU)、月活用户数(MAU)、人均使用推荐的时长、人均阅读笔记的数量等。

实验流程

推荐系统的实验流程主要包括离线实验和AB测试。离线实验不需要把算法部署到产品中,没有跟用户实际交互,没有占用线上流量。AB测试则是把用户随机分成实验组和对照组,实验组用新策略,对照组用旧策略,对比两者的业务指标,判断新策略是否会显著优于旧策略。

召回策略

召回阶段的目标是从物品的数据库中快速取回一些物品。常见的召回策略包括基于物品的协同过滤(ItemCF)、基于用户的协同过滤(UserCF)、双塔模型等。

基于物品的协同过滤(ItemCF)

ItemCF的基本思想是根据物品的相似度做推荐。具体实现包括计算物品相似度和预估用户对候选物品的兴趣。物品相似度的计算公式如下:

基于用户的协同过滤(UserCF)

UserCF的基本思想是如果用户user1跟用户user2相似,而且user2喜欢某物品,那么用户user1也很可能喜欢该物品。用户相似度的计算公式如下:

双塔模型

双塔模型是目前工业界常用的召回策略之一。它包括用户塔和物品塔,分别输出一个向量,两个向量的余弦相似度作为兴趣的预估值。双塔模型的训练方式有三种:pointwise、pairwise和listwise。

自监督学习

自监督学习是一种改进双塔模型的方法,目的是更好地学习长尾物品的向量表征。通过随机变换物品特征,训练物品塔使其对特征变换具有鲁棒性。

Deep Retrieval

Deep Retrieval是一种将物品表征为路径的召回策略。它通过神经网络预估用户对路径的兴趣,然后召回路径上的物品。这种方法避免了向量最近邻查找的计算量,同时保持了较高的召回精度。

排序模型

排序阶段的目标是从召回的物品中选出用户最感兴趣的。常见的排序模型包括多目标排序模型、MMoE等。

多目标排序模型

多目标排序模型用于估计点击率、点赞率等指标。排序的主要依据是用户对笔记的兴趣,兴趣可以反映在用户与笔记的交互上。排序模型的输入包括用户特征、物品特征、统计特征和场景特征等。

MMoE

MMoE(Multi-gate Mixture-of-Experts)是一种用于多任务学习的模型结构。它通过多个专家神经网络和门控机制,实现任务间的知识共享和参数分离。MMoE的结构如下:

预估分数的融合公式

多目标模型输出对点击率、点赞率等指标的预估。常见的融分公式包括加权和、海外某短视频APP的融分公式、国内某短视频APP的融分公式等。

视频播放建模

视频排序的依据除了点击、点赞、收藏等指标外,还包括播放时长和完播率。播放时长的建模通常采用YouTube的时长建模方法,完播率的建模可以采用回归或二元分类方法。

排序模型的特征

排序模型所需的特征主要包括用户画像特征、物品画像特征、统计特征和场景特征等。特征处理包括离散特征的embedding、连续特征的分桶等。特征覆盖率是特征工程中需要重点关注的指标。

粗排模型

粗排模型的设计理念是尽量减小推理的计算量,使得模型可以在线上给几千篇笔记打分。常见的粗排模型包括双塔模型和三塔模型等。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号