SIGIR’23论文:强化学习在推荐系统中的新突破
创作时间:
作者:
@小白创作中心
SIGIR’23论文:强化学习在推荐系统中的新突破
引用
CSDN
1.
https://blog.csdn.net/HE2096798708/article/details/144901862
在数字化时代,推荐系统扮演着信息过滤的关键角色,尤其是在电商、社交网络等平台。基于强化学习(Reinforcement Learning, RL)的推荐系统因其在长期累积收益优化方面的优势而受到关注。然而,现有方法在处理未出现在离线训练数据中的新用户状态时,面临价值函数估计不准确的问题,同时,由于缺乏对比信号,难以从用户的隐式反馈中学习有效的状态表示。
相关工作
顺序推荐(Sequential Recommendation)
顺序推荐方法主要依赖于马尔可夫链(Markov Chain, MC)和深度学习模型,如循环神经网络(RNN)和注意力机制(Attention Mechanism),以捕捉用户兴趣的动态变化。
强化学习(Reinforcement Learning, RL)
强化学习在推荐系统中的应用旨在通过与环境的交互来优化长期收益。然而,现有的在线RL方法需要实时探索,这在实际推荐系统中可能成本高昂且风险较大。
对比学习(Contrastive Learning)
对比学习通过最大化数据本身的正变换之间的互信息,同时提高对负样本的区分能力,从而发现不同视图之间的语义信息。
方法介绍
本研究提出了对比状态增强(Contrastive State Augmentations, CSA)框架,以提高基于RL的推荐系统的训练效果。CSA包含两个主要创新点:状态增强策略和对比学习损失。
模型背景和目标
- 推荐系统:帮助用户在海量信息中找到他们可能感兴趣的项目。
- 强化学习(RL):通过与环境的交互来学习最优策略,以最大化长期收益。
- 问题:在推荐系统中应用RL时,模型需要处理用户状态空间大和缺乏负反馈的问题。
对比状态增强(CSA)
CSA模型包含两个关键部分:状态增强策略和对比学习损失。
状态增强策略
状态增强策略旨在扩大模型训练时的状态空间,使模型能够泛化到未见过的状态下。具体策略包括:
- 高斯噪声:在原始状态上添加零均值的高斯噪声。
- 均匀噪声:在原始状态上添加均匀分布的噪声。
- 项目掩码:随机将序列中的某个项目替换为特殊的掩码标记。
- 维度丢弃:随机将状态中的某个维度置零。
这些策略通过局部扰动来模拟不同的用户状态,帮助模型学习到更加鲁棒的价值函数。
对比学习损失
对比学习损失用于改善状态表示的学习。它通过以下方式工作:
- 正样本:同一序列状态的不同增强视图被视为正样本。
- 负样本:从其他序列中随机采样的状态被视为负样本。
对比学习损失函数旨在使得同一状态的不同增强视图在表示空间中更接近(拉近正样本),而不同序列的状态更远离(推开负样本)。
模型输入和输出
- 输入:用户-项目交互序列。
- 输出:推荐项目的概率分布。
模型训练
CSA模型的训练包括以下几个步骤:
- 状态映射:使用序列推荐模型将输入序列映射到隐藏状态。
- 状态增强:对隐藏状态应用上述四种增强策略。
- 对比学习:通过最小化对比学习损失来优化状态表示。
- RL训练:使用Q-learning算法来学习状态-动作价值函数。
实验结果
实验在两个公开数据集和一个真实电商平台数据集上进行,验证了CSA在提高推荐性能方面的有效性。结果显示,CSA能够有效提升推荐系统的准确性和鲁棒性。
创新点
- 状态增强策略:通过局部扰动扩大状态空间,提高RL代理的泛化能力。
- 对比学习损失:引入对比信号,改善从隐式反馈中学习的状态表示。
热门推荐
中国空军迈入双隐形战机时代:歼-35A正式亮相与战略意义解析
卵圆孔未闭做什么检查可以查出来
常常被忽视的心脏病——卵圆孔未闭
二进四合院设计:当代建筑与中式美学的完美融合
贵阳房价变化玄机:观山湖与主城对比
了解作业指导书(SOP),看这一篇就够了!(附SOP流程图制作规范)
冷冻、冷藏、常温的预制菜 如何挑选预制菜?
尿微量白蛋白升高怎么办?原因分析与应对指南
世界肾脏日 | 糖尿病肾病的早期筛查及中西医结合治疗
野生鲤鱼与养殖鲤鱼的区别:从体型到口感的全方位解析
长沙高级技工学校:机电设备安装与维修专业介绍
全屋定制柜子按平米收费,效果却不如意?这些要点帮你避坑!
RFID 标签防伪及多场景的防伪应用
尊重与包容:教育孩子学会尊重他人,包容不同的文化和观点
孩子在叛逆期怎么和他沟通?听听专家老师怎么说
炉石传说狂野模式钩牙贼卡组攻略
南瓜育苗的注意事项,催芽时温度保持28℃-30℃
如何设置网址黑白名单?设置网页黑白名单的方法有哪些?
AI技术赋能,教育公平新机遇
如何找到交通便利的居住公寓?这样的公寓有哪些优势?
三阶幻方的公式的推导过程
刘秀的统一战略:军事智慧与天下大业
古代皇权的立子杀母制度
为游戏角色设计皮肤的玩家们
油炸食品怎么吃既美味又健康?这些小技巧用起来
油炸食品怎么吃,才能更美味又健康?这些小技巧用起来
2024年成人高考报考详细流程
电车和油车谁的污染大?
2024年广东专插本院校学费汇总及资助政策
从零开始认识GPU:发展历程、内部结构与AI应用