问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

SIGIR’23论文：强化学习在推荐系统中的新突破

创作时间:

作者:

@小白创作中心

SIGIR’23论文：强化学习在推荐系统中的新突破

引用

CSDN

1.

https://blog.csdn.net/HE2096798708/article/details/144901862

在数字化时代，推荐系统扮演着信息过滤的关键角色，尤其是在电商、社交网络等平台。基于强化学习（Reinforcement Learning, RL）的推荐系统因其在长期累积收益优化方面的优势而受到关注。然而，现有方法在处理未出现在离线训练数据中的新用户状态时，面临价值函数估计不准确的问题，同时，由于缺乏对比信号，难以从用户的隐式反馈中学习有效的状态表示。

相关工作

顺序推荐（Sequential Recommendation）

顺序推荐方法主要依赖于马尔可夫链（Markov Chain, MC）和深度学习模型，如循环神经网络（RNN）和注意力机制（Attention Mechanism），以捕捉用户兴趣的动态变化。

强化学习（Reinforcement Learning, RL）

强化学习在推荐系统中的应用旨在通过与环境的交互来优化长期收益。然而，现有的在线RL方法需要实时探索，这在实际推荐系统中可能成本高昂且风险较大。

对比学习（Contrastive Learning）

对比学习通过最大化数据本身的正变换之间的互信息，同时提高对负样本的区分能力，从而发现不同视图之间的语义信息。

方法介绍

本研究提出了对比状态增强（Contrastive State Augmentations, CSA）框架，以提高基于RL的推荐系统的训练效果。CSA包含两个主要创新点：状态增强策略和对比学习损失。

模型背景和目标

推荐系统：帮助用户在海量信息中找到他们可能感兴趣的项目。
强化学习（RL）：通过与环境的交互来学习最优策略，以最大化长期收益。
问题：在推荐系统中应用RL时，模型需要处理用户状态空间大和缺乏负反馈的问题。

对比状态增强（CSA）

CSA模型包含两个关键部分：状态增强策略和对比学习损失。

状态增强策略
状态增强策略旨在扩大模型训练时的状态空间，使模型能够泛化到未见过的状态下。具体策略包括：

高斯噪声：在原始状态上添加零均值的高斯噪声。
均匀噪声：在原始状态上添加均匀分布的噪声。
项目掩码：随机将序列中的某个项目替换为特殊的掩码标记。
维度丢弃：随机将状态中的某个维度置零。
这些策略通过局部扰动来模拟不同的用户状态，帮助模型学习到更加鲁棒的价值函数。

对比学习损失
对比学习损失用于改善状态表示的学习。它通过以下方式工作：

正样本：同一序列状态的不同增强视图被视为正样本。
负样本：从其他序列中随机采样的状态被视为负样本。
对比学习损失函数旨在使得同一状态的不同增强视图在表示空间中更接近（拉近正样本），而不同序列的状态更远离（推开负样本）。

模型输入和输出

输入：用户-项目交互序列。
输出：推荐项目的概率分布。

模型训练

CSA模型的训练包括以下几个步骤：

状态映射：使用序列推荐模型将输入序列映射到隐藏状态。
状态增强：对隐藏状态应用上述四种增强策略。
对比学习：通过最小化对比学习损失来优化状态表示。
RL训练：使用Q-learning算法来学习状态-动作价值函数。

实验结果

实验在两个公开数据集和一个真实电商平台数据集上进行，验证了CSA在提高推荐性能方面的有效性。结果显示，CSA能够有效提升推荐系统的准确性和鲁棒性。

创新点

状态增强策略：通过局部扰动扩大状态空间，提高RL代理的泛化能力。
对比学习损失：引入对比信号，改善从隐式反馈中学习的状态表示。

热门推荐

但丁《神曲》中的撒旦：从光明天使到地狱之王

但丁《神曲》中的撒旦：从光明天使到地狱之王

工资被拖欠？劳动监察部门维权流程详解

工资被拖欠？劳动监察部门维权流程详解

劳动监察部门四步讨薪流程，助农民工讨回被拖欠工资

劳动监察部门四步讨薪流程，助农民工讨回被拖欠工资

古希腊神话中的神人同形同性揭秘

古希腊神话中的神人同形同性揭秘

诗词｜孟郊经典诗词28首，值得收藏细品

诗词｜孟郊经典诗词28首，值得收藏细品

细节里的生活美学：如何用人性化设计点亮日常？

细节里的生活美学：如何用人性化设计点亮日常？

苏轼20句禅意诗句：穿越千年，洞悉人生百态

苏轼20句禅意诗句：穿越千年，洞悉人生百态

2024医药投资新风口：创新药械企业展现强劲增长潜力

2024医药投资新风口：创新药械企业展现强劲增长潜力

财报数据解读：恒瑞、迈瑞、药明哪家医药股更值得投资？

财报数据解读：恒瑞、迈瑞、药明哪家医药股更值得投资？

日法德联手，电磁炮研发再提速

日法德联手，电磁炮研发再提速

激光治疗疣体后这样护理，恢复时间可大大缩短

激光治疗疣体后这样护理，恢复时间可大大缩短

中美电磁炮竞赛：谁将引领未来战场？

中美电磁炮竞赛：谁将引领未来战场？

激光祛疣术后护理：四步走预防复发

激光祛疣术后护理：四步走预防复发

羊奶粉营养价值胜牛奶粉，四大选购要点助你避坑

羊奶粉营养价值胜牛奶粉，四大选购要点助你避坑

孕妇吃菠菜的正确姿势

孕妇吃菠菜的正确姿势

孕期吃菠菜，真的好吗？

孕期吃菠菜，真的好吗？

内分泌失调：识别症状，调整生活，重获平衡

内分泌失调：识别症状，调整生活，重获平衡

读书丨为中国书写大国兴衰律——读《风起云飞扬：钱乘旦讲大国崛起》

读书丨为中国书写大国兴衰律——读《风起云飞扬：钱乘旦讲大国崛起》

港车北上政策实施一年：100万辆次通关，这些条件需留意

港车北上政策实施一年：100万辆次通关，这些条件需留意

港珠澳大桥通行攻略：私家车需三地车牌，另有多种交通方案可选

港珠澳大桥通行攻略：私家车需三地车牌，另有多种交通方案可选

专家解析：吃柿子的八大误区

专家解析：吃柿子的八大误区

投影仪使用全攻略：从入门到精通

投影仪使用全攻略：从入门到精通

眼睛太累也会“过劳死”！视屏时代如何保养眼睛？

眼睛太累也会“过劳死”！视屏时代如何保养眼睛？

如何通过全屋无线覆盖优化家庭娱乐体验：提升网络稳定性与速度的全攻略

如何通过全屋无线覆盖优化家庭娱乐体验：提升网络稳定性与速度的全攻略

贷款逾期30天该如何处理

贷款逾期30天该如何处理

欠银行贷款逾期了怎么办？多种还款方法和应对策略详解

欠银行贷款逾期了怎么办？多种还款方法和应对策略详解

民间故事：幼儿德育教育的生动教材

民间故事：幼儿德育教育的生动教材

如何避免运动损伤的发生

如何避免运动损伤的发生

中国科学家推出新健康评估体系：重点关注“离健康还有多远”

中国科学家推出新健康评估体系：重点关注“离健康还有多远”

2025年中国超高清频道将超20个，产业规模剑指4万亿

2025年中国超高清频道将超20个，产业规模剑指4万亿

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号