SIGIR’23论文:强化学习在推荐系统中的新突破
创作时间:
作者:
@小白创作中心
SIGIR’23论文:强化学习在推荐系统中的新突破
引用
CSDN
1.
https://blog.csdn.net/HE2096798708/article/details/144901862
在数字化时代,推荐系统扮演着信息过滤的关键角色,尤其是在电商、社交网络等平台。基于强化学习(Reinforcement Learning, RL)的推荐系统因其在长期累积收益优化方面的优势而受到关注。然而,现有方法在处理未出现在离线训练数据中的新用户状态时,面临价值函数估计不准确的问题,同时,由于缺乏对比信号,难以从用户的隐式反馈中学习有效的状态表示。
相关工作
顺序推荐(Sequential Recommendation)
顺序推荐方法主要依赖于马尔可夫链(Markov Chain, MC)和深度学习模型,如循环神经网络(RNN)和注意力机制(Attention Mechanism),以捕捉用户兴趣的动态变化。
强化学习(Reinforcement Learning, RL)
强化学习在推荐系统中的应用旨在通过与环境的交互来优化长期收益。然而,现有的在线RL方法需要实时探索,这在实际推荐系统中可能成本高昂且风险较大。
对比学习(Contrastive Learning)
对比学习通过最大化数据本身的正变换之间的互信息,同时提高对负样本的区分能力,从而发现不同视图之间的语义信息。
方法介绍
本研究提出了对比状态增强(Contrastive State Augmentations, CSA)框架,以提高基于RL的推荐系统的训练效果。CSA包含两个主要创新点:状态增强策略和对比学习损失。
模型背景和目标
- 推荐系统:帮助用户在海量信息中找到他们可能感兴趣的项目。
- 强化学习(RL):通过与环境的交互来学习最优策略,以最大化长期收益。
- 问题:在推荐系统中应用RL时,模型需要处理用户状态空间大和缺乏负反馈的问题。
对比状态增强(CSA)
CSA模型包含两个关键部分:状态增强策略和对比学习损失。
状态增强策略
状态增强策略旨在扩大模型训练时的状态空间,使模型能够泛化到未见过的状态下。具体策略包括:
- 高斯噪声:在原始状态上添加零均值的高斯噪声。
- 均匀噪声:在原始状态上添加均匀分布的噪声。
- 项目掩码:随机将序列中的某个项目替换为特殊的掩码标记。
- 维度丢弃:随机将状态中的某个维度置零。
这些策略通过局部扰动来模拟不同的用户状态,帮助模型学习到更加鲁棒的价值函数。
对比学习损失
对比学习损失用于改善状态表示的学习。它通过以下方式工作:
- 正样本:同一序列状态的不同增强视图被视为正样本。
- 负样本:从其他序列中随机采样的状态被视为负样本。
对比学习损失函数旨在使得同一状态的不同增强视图在表示空间中更接近(拉近正样本),而不同序列的状态更远离(推开负样本)。
模型输入和输出
- 输入:用户-项目交互序列。
- 输出:推荐项目的概率分布。
模型训练
CSA模型的训练包括以下几个步骤:
- 状态映射:使用序列推荐模型将输入序列映射到隐藏状态。
- 状态增强:对隐藏状态应用上述四种增强策略。
- 对比学习:通过最小化对比学习损失来优化状态表示。
- RL训练:使用Q-learning算法来学习状态-动作价值函数。
实验结果
实验在两个公开数据集和一个真实电商平台数据集上进行,验证了CSA在提高推荐性能方面的有效性。结果显示,CSA能够有效提升推荐系统的准确性和鲁棒性。
创新点
- 状态增强策略:通过局部扰动扩大状态空间,提高RL代理的泛化能力。
- 对比学习损失:引入对比信号,改善从隐式反馈中学习的状态表示。
热门推荐
2024全球四大热点:气候新政如何重塑世界格局,铺路绿色未来?
人工智能驱动的非营利组织如何助力气候可持续发展
华为手机网速慢?这些小妙招让你秒变飞速达人!🚀
基站负荷大?SIM卡也‘受伤’了!揭秘手机网速之谜
《细胞》揭秘:指纹背后的图灵斑图机制
里耶秦简《乘法口诀表》:改写数学史的惊人发现
口诀教学法:让数学不再枯燥!
哈佛、斯坦福推荐:用数学口诀培养孩子兴趣
OpenAI提出五层分类系统以追踪AGI方面进展
手机信息安全:这些小技巧你必须知道!
日常生活中感知不到地球自转?有很多现象能证明地球在自转!
生命的起源是否超越了地球?从太空到地球的胚种论
今年这些太空探索大事值得关注 中国将开展近地小行星探测任务
婴儿游泳圈使用指南:材质、类型与安全注意事项全解析
双十一期间,苏交科用黑科技守护桥梁安全
十二时辰养生精华:申时养生
财报季来了!教你读懂财报挑选优质股
加油站为啥禁打手机?真相揭秘!
新能源车主必看:加油站安全指南
岁末加油站安全指南:这些细节关乎生命安全
无痛胃镜操作过程中,管子是如何移动的?
吴勇豪vs库里:一场三分球单挑的背后故事
自行车大轮径、小轮径的区别是什么?对性能的影响是什么?
桂枝汤:千年古方在现代医学中的新生
泰国自驾游必知的奇葩交通规则!
天一阁:宁波必打卡的历史宝藏地
天一阁、保国寺、招宝山:宁波必打卡名胜古迹
天一阁和鼓楼:宁波历史文化的双子星
天一阁:宁波最美古典园林打卡地
寒假必读的"地球生命史诗":理解地球的昨天、今天、明天