问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

SIGIR’23 文献解读:CSA框架在强化学习推荐系统中的创新应用

创作时间:
作者:
@小白创作中心

SIGIR’23 文献解读:CSA框架在强化学习推荐系统中的创新应用

引用
CSDN
1.
https://blog.csdn.net/HE2096798708/article/details/144901862

研究背景

在数字化时代,推荐系统扮演着信息过滤的关键角色,尤其是在电商、社交网络等平台。基于强化学习(Reinforcement Learning, RL)的推荐系统因其在长期累积收益优化方面的优势而受到关注。然而,现有方法在处理未出现在离线训练数据中的新用户状态时,面临价值函数估计不准确的问题,同时,由于缺乏对比信号,难以从用户的隐式反馈中学习有效的状态表示。

相关工作

顺序推荐(Sequential Recommendation)

顺序推荐方法主要依赖于马尔可夫链(Markov Chain, MC)和深度学习模型,如循环神经网络(RNN)和注意力机制(Attention Mechanism),以捕捉用户兴趣的动态变化。

强化学习(Reinforcement Learning, RL)

强化学习在推荐系统中的应用旨在通过与环境的交互来优化长期收益。然而,现有的在线RL方法需要实时探索,这在实际推荐系统中可能成本高昂且风险较大。

对比学习(Contrastive Learning)

对比学习通过最大化数据本身的正变换之间的互信息,同时提高对负样本的区分能力,从而发现不同视图之间的语义信息。

方法介绍

本研究提出了对比状态增强(Contrastive State Augmentations, CSA)框架,以提高基于RL的推荐系统的训练效果。CSA包含两个主要创新点:状态增强策略和对比学习损失。

模型背景和目标

  • 推荐系统:帮助用户在海量信息中找到他们可能感兴趣的项目。
  • 强化学习(RL):通过与环境的交互来学习最优策略,以最大化长期收益。
  • 问题:在推荐系统中应用RL时,模型需要处理用户状态空间大和缺乏负反馈的问题。

对比状态增强(CSA)

CSA模型包含两个关键部分:状态增强策略和对比学习损失。

状态增强策略

状态增强策略旨在扩大模型训练时的状态空间,使模型能够泛化到未见过的状态下。具体策略包括:

  • 高斯噪声:在原始状态上添加零均值的高斯噪声。
  • 均匀噪声:在原始状态上添加均匀分布的噪声。
  • 项目掩码:随机将序列中的某个项目替换为特殊的掩码标记。
  • 维度丢弃:随机将状态中的某个维度置零。

这些策略通过局部扰动来模拟不同的用户状态,帮助模型学习到更加鲁棒的价值函数。

对比学习损失

对比学习损失用于改善状态表示的学习。它通过以下方式工作:

  • 正样本:同一序列状态的不同增强视图被视为正样本。
  • 负样本:从其他序列中随机采样的状态被视为负样本。

对比学习损失函数旨在使得同一状态的不同增强视图在表示空间中更接近(拉近正样本),而不同序列的状态更远离(推开负样本)。

模型输入和输出

  • 输入:用户-项目交互序列。
  • 输出:推荐项目的概率分布。

模型训练

CSA模型的训练包括以下几个步骤:

  1. 状态映射:使用序列推荐模型将输入序列映射到隐藏状态。
  2. 状态增强:对隐藏状态应用上述四种增强策略。
  3. 对比学习:通过最小化对比学习损失来优化状态表示。
  4. RL训练:使用Q-learning算法来学习状态-动作价值函数。

实验

实验在两个公开数据集和一个真实电商平台数据集上进行,验证了CSA在提高推荐性能方面的有效性。结果显示,CSA能够有效提升推荐系统的准确性和鲁棒性。

创新点

  • 状态增强策略:通过局部扰动扩大状态空间,提高RL代理的泛化能力。
  • 对比学习损失:引入对比信号,改善从隐式反馈中学习的状态表示。
© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号