问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

Meta AI推出思维偏好优化技术,提升AI模型回应质量

创作时间:
作者:
@小白创作中心

Meta AI推出思维偏好优化技术,提升AI模型回应质量

引用
CSDN
1.
https://blog.csdn.net/weixin_41446370/article/details/143492023

近日,Meta AI的研究团队与加州大学伯克利分校及纽约大学的研究人员合作,推出了一种名为思维偏好优化(Thought Preference Optimization,TPO)的方法,旨在提升经过指令微调的大型语言模型(LLM)的回应质量。

与传统模型仅关注最终答案不同,TPO方法允许模型在生成回应前进行内部思考,从而产生更加准确和连贯的回答。这种新技术结合了改进版的思维链(Chain-of-Thought,CoT)推理方法。在训练过程中,该方法鼓励模型在回应前先进行“思考”,帮助其构建更为系统的内部思维过程。以往的直接CoT提示有时会降低准确性,并且由于缺乏明确的思维步骤,训练过程较为困难。TPO通过允许模型优化和精简其思维过程,克服了这些局限性,并且在用户面前并不展示中间思维步骤。

在TPO的流程中,首先提示大型语言模型生成多个思维过程,然后在形成最终回应之前,对这些输出进行抽样和评估。随后,一个评估模型将对输出进行评分,确定最优和最差的回应。通过将这些输出作为选择和拒绝对进行直接偏好优化(Direct Preference Optimization,DPO),这一迭代训练方法增强了模型生成更相关、高质量回应的能力,从而提高了整体效果。

在这个方法中,训练提示经过调整,鼓励模型在回应前进行内部思考。经过评估的最终回应由一个基于LLM的评估模型进行评分,这使得模型能在不考虑隐性思维步骤的情况下,仅依据回应的有效性来提升质量。此外,TPO利用直接偏好优化创建包含隐性思维的偏好与拒绝回应对,经过多次训练循环来进一步细化模型的内部过程。

研究结果显示,TPO方法在多项基准测试中表现优异,超越了多种现有模型。这一方法不仅适用于逻辑和数学任务,也在创意领域如市场营销和健康等指令跟随任务中展现了潜力。

论文链接:https://arxiv.org/pdf/2410.10630

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号