问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

o1开启LLM新范式,Ai2科学家解析背后秘籍:推理和强化学习是关键

创作时间:
作者:
@小白创作中心

o1开启LLM新范式,Ai2科学家解析背后秘籍:推理和强化学习是关键

引用
澎湃
1.
https://m.thepaper.cn/newsDetail_forward_30068444

在人工智能领域,OpenAI的o1模型以其独特的训练方式和强大的推理能力引起了广泛关注。AI2研究科学家Nathan Lambert在NeurIPS的演讲中,深入解析了o1模型背后的秘密,揭示了强化学习在其中的关键作用。本文将带你一探究竟。

什么是推理?

Lambert表示,「我不会说推理是我主要的研究领域。我更倾向于说,我是从强化学习的背景转向语言模型的。」
「现在,推理被颠覆为一种方法,而不是一个领域。」
这被称为「推理的现状」。

语言模型能否推理?

关于语言模型没有做推理的论点太多了,但这些论点本身并不成立。然而,这个问题确实很棘手。确实有一些非常有说服力的论点认为推理并不是语言模型应追求的方向,因为语言模型在这方面不可能像人类一样出色。但要说它们不能进行推理,也没有什么证据。问题是,为什么语言模型的推理能力必须看起来像人类的推理方式呢?语言模型和人脑非常不同,并且它们有随机性。这种随机性存在的原因有很多,我们应该接受这一点,并继续推动研究。今年一个重要的趋势是,我们正在看到新的语言模型推理形式,它们看起来不像人类的推理方式。

o1模型解析

训练过程中的大量前向计算

当在进行RL时,有两种方式可以多次查看数据,从而导致多次前向计算。
第一种方式是,当针对提示进行RL时,可以采样多个补全(completion)版本,然后对它们进行评分,或者用不同的方式利用它们来更新策略。所以,如果问一个数学问题,可以查看八个补全(completion)版本,选择最好的,或者对比最差和最好的,这种分级方式有助于强化学习策略的学习。
第二种方式是,因为损失函数比指令微调之类的方式更灵活,可以在相同的提示上进行更多的训练,而不像指令微调或预训练那样只训练少量样本。这意味着他们从模型中进行了大量采样,这与过去在预训练和后训练完全不同。

后训练比预训练计算量大

接下来,有个亮点:后训练的浮点运算量(flops)超过了预训练。Lambert认为这基本上明确表明OpenAI正在使用强化学习,并且为这种大规模强化学习投入了大量计算资源。而在这一阶段,这可能意味着某种不同的方式,比如预训练强化学习。但o1的「亲戚」模型目前还做不到,因为没有哪个团队像OpenAI一样拥有如此多的基础设施。这需要时间,但人们终会实现它。

强化学习微调

现在我们进入了强化学习(RL)微调的讨论。

这种方式与以往的训练方法完全不同。具体来说,模型在答案正确时会获得奖励,模型学会强化那些能给出正确答案的行为。进行强化学习,并在答案正确时给予奖励,这就是全部过程。其关键创新和简洁之处在于,现代语言模型已经具备了足够强大的基础,因此仅通过轻微的强化学习微调,就能增强这些特定能力,而不削弱模型的其他功能。

评分器模型

对许多人来说,这些评分器模型有点让人迷惑。Lambert认为,这些模型起源于评估。评估领域做了大量工作,特别是为了保证答案提取的稳定性,尤其是数学题。举个例子,Lama 3.1详细描述了他们的评估方法。在数学题中,他们同时使用了SymPy,这是一个用于提取答案的Python包,以及LLM,它作为判断工具来提取数学答案。评分器的作用本质上是将这一过程扩展到全新的层次,建立了嵌套的配置结构,用于对这些可验证的输出进行奖励塑造。

OpenAI的实践

OpenAI有一堆截图,虽然只是他们用来做展示的内容而已,但看起来还是比较标准的。这些截图跟踪了性能随时间的变化。能够查看所有的输出结果。

接下来,他们有一个非常通用的强化学习(RL)图表。最标准的RL图表通常是X轴表示时间或试验次数,Y轴表示奖励。在这个图表中,奖励通常指的是在某个验证集上的准确度或成功率。X轴实际上表示的是训练的进度。这个图表与Ai2在项目中所做的非常相似,这也是表达RL反馈图的另一种方式。

开源工具

如果见过RL相关的图示,你会看到一个智能体与环境交互的模型。如果你没接触过这类图示,随着RL越来越流行,接触到类似内容的可能性也越来越大,因为RL本质上是基于试错学习的。Lambert表示,欢迎大家使用Ai2发布的代码。它已经能够处理数学和部分指令微调任务。而且它们打算尝试设计更复杂的评分器,以便处理代码这样的任务, 因为使用二元结果来评判代码质量并不合适。这也是很好的思路,能帮你理解为什么在评定不同模型输出时,可能需要进行一些奖励塑造(reward shaping)。此外,这也可以与OpenAI展示的图表做对比,后者展示了性能随时间的提升。

项目地址:https://github.com/allenai/open-instruct

上图是在不同评估上进行的实验。左侧列展示的是在学术论文中会使用的语言模型评估方式,而右侧则展示了各种内部的强化学习(RL)统计数据,其中如GSMAK数学和IFVL都在训练集上进行训练。根据Lambert的描述,这个项目的契机也很有趣:几个月前,它们从某工业实验室成员那里获得了建议,提前做了这项实验,因此抢占了先机。相信现在很多人会尝试复制这个实验。

Nathan Lambert简介

Nathan Lambert是Interconnects AI创始人、Ai2研究所的研究科学家,主要领域研究为强化学习、机器学习、机器人等。2022年,他于在加州大学伯克利分校取得电气工程与计算机科学博士学位。2024年,他曾获得ACL最佳主题论文奖以及ACL最佳资源论文奖。目前, 他的谷歌总引用数为3459,但增长速度惊人:2024年比2023年翻了一番。

参考资料:

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号