问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

北大:动态调整LLM训练样本的权重

创作时间:
作者:
@小白创作中心

北大:动态调整LLM训练样本的权重

引用
CSDN
1.
https://blog.csdn.net/weixin_46739757/article/details/144951700

📖标题:Plug-and-Play Training Framework for Preference Optimization
🌐来源:arXiv, 2412.20996

🌟摘要

🔸最近,DPO等偏好优化方法在包括对话和问答在内的广泛任务中显著增强了大型语言模型(LLM)。然而,目前的方法未能考虑偏好优化过程中训练样本的不同难度,导致在具有高精度要求的任务中表现平平,特别是在数学推理方面。

🔸为了解决这一局限性,我们提出了一种新的训练框架,该框架采用多次采样来分析输出分布,为样本分配不同的权重,并将这些权重纳入偏好优化过程。这种即插即用的方法使LLM能够在培训过程中优先考虑具有挑战性的例子,从而提高学习效率。

🔸实验结果表明,我们的框架与各种偏好优化方法无缝集成,并在数学推理任务中实现了一致的改进。

🛎️文章简介

🔸研究问题:大语言模型(LLM)在数学推理任务中数据效用不平衡,现有偏好优化方法在训练过程中无法动态调整样本权重。

🔸主要贡献:论文提出了一种即插即用的加权训练框架,能够动态调整训练样本的权重,显著提升了大型语言模型在数学推理任务中的表现。

📝重点思路

🔸数据收集阶段:通过多次采样模型对同一问题的响应,形成数据集,分析模型的输出分布和偏好。

🔸权重计算阶段:设计了一种度量标准,根据模型在每个问题上的表现动态调整训练样本的权重。通过分析正确和错误响应的频率,为模型难以处理的问题分配更高的权重,减少对已掌握问题的关注。

🔸加权训练阶段:利用计算得到的权重进行训练,优先处理具有挑战性的样本,优化模型在训练过程中的关注点。

🔎分析总结

🔸模型输出分布分析:通过多次采样,发现模型在简单问题上表现一致,而在复杂问题上输出多样且常出错。

🔸加权训练效果:加权训练方法在多个模型系列上显著提升了数学推理能力,特别是在GSM8K和MATH数据集上的表现优于未加权方法。

🔸模型稳定性:加权训练方法提高了模型的稳定性,使其更倾向于选择正确答案。

🔸自生成答案的优势:使用模型自生成的正确答案作为训练数据,比使用标准答案更能提升模型的表现。

💡个人观点

论文的核心在于通过多次响应采样,找出分布不一致的作为困难样本进行重点训练。

🧩附录

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号