问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

WWW'22 | GDNS：基于增益的动态负采样方法用于推荐系统

创作时间:

作者:

@小白创作中心

WWW'22 | GDNS：基于增益的动态负采样方法用于推荐系统

引用

1

来源

1.

https://developer.volcengine.com/articles/7391690735357001747

本文是针对负样本采样过程中可能采样到假阴性样本的问题提出的相关方法，现有的方法通常侧重于保持具有高梯度的难负样本进行训练，导致优先选择假负样本。假阴性噪声可能导致模型的过拟合和较差的泛化性。为了解决这个问题，本文提出了一种增益调整动态负采样方法 GDNS。

方法

image.png

2.1 增益感知的负采样

由于常用方法存在假负例的情况，因此本文希望找到一种更可靠的衡量方式来找到负样本。本节设计了一个曝光感知函数来衡量曝光数据中的负信号，对于一个用户u，以及他交互的商品数据集合，曝光数据中未交互商品𝑗为真正负样本的概率为：

其中𝑡代表训练阶段的第𝑡次迭代，𝜎是sigmoid函数。具有更高的预测分数，与正样本的预测分数接近的未交互样本更容易被选为负样本，这可以有效地在训练过程中提供更大的梯度和更多的信息。

具有较大预测分数的负实例对模型的学习很重要，但通常很少见，即遵循偏态分布。作者通过实验发现，假阴性样本在多次训练迭代中总是具有很高的期望差距，因此，与上式中对负样本和正样本之间得分差异的期望相比，两次迭代之间的期望增益是监控负样本和正样本集之间差异的更敏感的信号。相应地，设计了一个增益感知函数来计算商品𝑗是一个真正的负样本的概率，如下式，其中𝛼是使训练稳定的平滑超参数，𝜖防止分母为0。

根据增益调整采样器，对于给定的用户，使得较高的商品j作为负样本。这是因为根据实验发现假阴性样本的G通常低于真阴性样本。因此，模型倾向于利用这种具有较高期望差距的方式来衡量负样本的质量，即在训练阶段选择具有较高 G 的候选负样本作为负样本。即这些样本更有可能是真负样本。这种方式可以有效地降低引入假阴性实例的风险。

2.2 分组优化

以前的工作通常优化成对的基于边际的损失，将高分分配给正实例，将低分分配给负实例。考虑到一下两方面，作者提出分组损失。

（1）在训练中负商品𝑗很可能与用户𝑢的正项一起重用
（2）在一对正负样本上优化推荐模型效率低下，分组优化器使优化更有效。

分组排序损失定义如下，其中r为模型预测得分，,分别表示每个用户u的正负样本组。

伪代码如下，

对于用户u，将观察数据中的交互商品集合中采样N次得到作为用户u的正样本组；将未观察数据中的商品集合中采样N次得到作为用户u的负样本组。
由于负采样的空间非常巨大或未知，对于第 𝑡 次迭代中的每个用户，首先通过随机采样构造一个子集
然后通过GDNS从中采样topN个构成
然后构造损失

建立了分组排序损失后，与单个成对样本相比，分组感知的正负样本可以更有效地捕捉用户的偏好。最后，我们将学习目标制定为最小化以下损失函数

热门推荐

在社死瞬间中寻找勇气与欢笑：如何优雅面对尴尬

在社死瞬间中寻找勇气与欢笑：如何优雅面对尴尬

身份证和房产证拍照给中介有危险吗

身份证和房产证拍照给中介有危险吗

从医学影像的视角，让您更清晰“看到”腰椎间盘突出

从医学影像的视角，让您更清晰“看到”腰椎间盘突出

32种低糖高营养汤品制作，让你喝得安心又健康！

32种低糖高营养汤品制作，让你喝得安心又健康！

髋关节外展肌锻炼指南：方法、好处一网打尽

髋关节外展肌锻炼指南：方法、好处一网打尽

《花样男子》：青春、爱情与友情的经典之作，唤醒无数人的美好回忆

《花样男子》：青春、爱情与友情的经典之作，唤醒无数人的美好回忆

万能沟通话术12句

万能沟通话术12句

激情澎湃：十部西班牙爱情电影，感受别样的浪漫

激情澎湃：十部西班牙爱情电影，感受别样的浪漫

《Pokémon GO》极巨化火焰鸟战斗攻略：最强克星与最佳打法

《Pokémon GO》极巨化火焰鸟战斗攻略：最强克星与最佳打法

OpenCV API查阅指南：从官方文档到在线资源

OpenCV API查阅指南：从官方文档到在线资源

口腔溃疡：病因是什么以及如何治疗？

口腔溃疡：病因是什么以及如何治疗？

侯景之乱对南朝的历史造成了怎样的影响？可从四个方面分析

侯景之乱对南朝的历史造成了怎样的影响？可从四个方面分析

盐城三日自驾游攻略：第一天行程规划详解

盐城三日自驾游攻略：第一天行程规划详解

孕吐严重真的会要人命！缓解孕吐的14个方法，每一招都很有效！

孕吐严重真的会要人命！缓解孕吐的14个方法，每一招都很有效！

10张象征生命的无常和宇宙的循环的曼陀罗图案涂色作品下载

10张象征生命的无常和宇宙的循环的曼陀罗图案涂色作品下载

古代沐浴文化探秘：从频率到仪式的变迁之旅

古代沐浴文化探秘：从频率到仪式的变迁之旅

2025：古特雷斯强调动荡之中存在“通过行动带来的希望”

2025：古特雷斯强调动荡之中存在“通过行动带来的希望”

韩国网友评论LG杯决赛柯洁退赛事件，对规则与裁判公正提出质疑

韩国网友评论LG杯决赛柯洁退赛事件，对规则与裁判公正提出质疑

Excel中数列求和的多种方法与技巧

Excel中数列求和的多种方法与技巧

宝可梦大集结多龙巴鲁托怎么玩技能解析与持有物推荐

宝可梦大集结多龙巴鲁托怎么玩技能解析与持有物推荐

围棋业余三段，如何快速提升到业余五段

围棋业余三段，如何快速提升到业余五段

土家鲜肉饼制作

土家鲜肉饼制作

饥荒海难：最强食材搭配与制作全攻略

饥荒海难：最强食材搭配与制作全攻略

火影忍者中6个效果特殊的土遁忍术：2个能复活死者，2个能改变重量

火影忍者中6个效果特殊的土遁忍术：2个能复活死者，2个能改变重量

购房提取公积金的办理流程及要求解析

购房提取公积金的办理流程及要求解析

住宿需要带的生活用品

住宿需要带的生活用品

SolidWorks软件如何进行草图绘制？

SolidWorks软件如何进行草图绘制？

雅思作文之书信如何写

雅思作文之书信如何写

福州理工学院怎么样好不好（什么档次、全国排名、口碑）

福州理工学院怎么样好不好（什么档次、全国排名、口碑）

心理学角度分析人格特征，咋解读？

心理学角度分析人格特征，咋解读？

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号