SIGIR’23论文:强化学习在推荐系统中的新突破
创作时间:
作者:
@小白创作中心
SIGIR’23论文:强化学习在推荐系统中的新突破
引用
CSDN
1.
https://blog.csdn.net/HE2096798708/article/details/144901862
在数字化时代,推荐系统扮演着信息过滤的关键角色,尤其是在电商、社交网络等平台。基于强化学习(Reinforcement Learning, RL)的推荐系统因其在长期累积收益优化方面的优势而受到关注。然而,现有方法在处理未出现在离线训练数据中的新用户状态时,面临价值函数估计不准确的问题,同时,由于缺乏对比信号,难以从用户的隐式反馈中学习有效的状态表示。
相关工作
顺序推荐(Sequential Recommendation)
顺序推荐方法主要依赖于马尔可夫链(Markov Chain, MC)和深度学习模型,如循环神经网络(RNN)和注意力机制(Attention Mechanism),以捕捉用户兴趣的动态变化。
强化学习(Reinforcement Learning, RL)
强化学习在推荐系统中的应用旨在通过与环境的交互来优化长期收益。然而,现有的在线RL方法需要实时探索,这在实际推荐系统中可能成本高昂且风险较大。
对比学习(Contrastive Learning)
对比学习通过最大化数据本身的正变换之间的互信息,同时提高对负样本的区分能力,从而发现不同视图之间的语义信息。
方法介绍
本研究提出了对比状态增强(Contrastive State Augmentations, CSA)框架,以提高基于RL的推荐系统的训练效果。CSA包含两个主要创新点:状态增强策略和对比学习损失。
模型背景和目标
- 推荐系统:帮助用户在海量信息中找到他们可能感兴趣的项目。
- 强化学习(RL):通过与环境的交互来学习最优策略,以最大化长期收益。
- 问题:在推荐系统中应用RL时,模型需要处理用户状态空间大和缺乏负反馈的问题。
对比状态增强(CSA)
CSA模型包含两个关键部分:状态增强策略和对比学习损失。
状态增强策略
状态增强策略旨在扩大模型训练时的状态空间,使模型能够泛化到未见过的状态下。具体策略包括:
- 高斯噪声:在原始状态上添加零均值的高斯噪声。
- 均匀噪声:在原始状态上添加均匀分布的噪声。
- 项目掩码:随机将序列中的某个项目替换为特殊的掩码标记。
- 维度丢弃:随机将状态中的某个维度置零。
这些策略通过局部扰动来模拟不同的用户状态,帮助模型学习到更加鲁棒的价值函数。
对比学习损失
对比学习损失用于改善状态表示的学习。它通过以下方式工作:
- 正样本:同一序列状态的不同增强视图被视为正样本。
- 负样本:从其他序列中随机采样的状态被视为负样本。
对比学习损失函数旨在使得同一状态的不同增强视图在表示空间中更接近(拉近正样本),而不同序列的状态更远离(推开负样本)。
模型输入和输出
- 输入:用户-项目交互序列。
- 输出:推荐项目的概率分布。
模型训练
CSA模型的训练包括以下几个步骤:
- 状态映射:使用序列推荐模型将输入序列映射到隐藏状态。
- 状态增强:对隐藏状态应用上述四种增强策略。
- 对比学习:通过最小化对比学习损失来优化状态表示。
- RL训练:使用Q-learning算法来学习状态-动作价值函数。
实验结果
实验在两个公开数据集和一个真实电商平台数据集上进行,验证了CSA在提高推荐性能方面的有效性。结果显示,CSA能够有效提升推荐系统的准确性和鲁棒性。
创新点
- 状态增强策略:通过局部扰动扩大状态空间,提高RL代理的泛化能力。
- 对比学习损失:引入对比信号,改善从隐式反馈中学习的状态表示。
热门推荐
什么是窦性心律?正常范围是多少?窦性心律异常会出现哪些症状?
河西走廊:贯通古今的历史文化长廊
优化管理简历照片怎么拍
人民网用“网言网语”作答
心梗的诊断标准
美国学校开学时间有哪些常见安排
海洋环境保护管理体系与有效措施
猪皮冻的营养价值和功效
项目产品需求单如何填写
图文详解中央空调风系统设计要点
吉林化工学院就业率及就业前景怎么样
如何准确测量电池电压?测量电池电压时有哪些技巧可以提高准确性?
新生儿的聆听世界应这样守护
焦煤和焦炭的市场表现有何关联?这些关联如何影响期货市场?
国家级非遗之甲子英歌:600年传承的英雄长歌
灭火器的维修保养和使用指南
脑机接口定义及相关概念
早晨起床手发胀的五个可能原因
甘肃地理概况:位置、气候、自然资源全解析
NPR锁模光纤激光器工作原理、定义、特点及应用范围全揭秘
针灸疗法对疼痛管理的实效性,一项长期随访研究
「中国大历史」历史上的刀剑,种类和讲究竟然如此繁多?
英歌激昂 舞向远洋
未来煤炭:低碳焚烧
物流运输中的包装问题:如何选择合适的包装材料和方式,防止货物损坏?
2024年度重磅 | 新辅助化学免疫疗法在肌层浸润性膀胱癌领域曙光初现
核电有什么好处?
英语语法基础:及物动词(vt)完全解析
揭秘:为什么很多科学家晚年竟相信神学,科学的尽头究竟有什么?
智慧水利⑧丨筑数字长城,织监管密网,助力农污设施监管水平提质增效