资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

透明探索O1模型，研究团队创新“旅程学习”

创作时间:

2025-01-22 08:37:11

作者:

@小白创作中心

透明探索O1模型，研究团队创新“旅程学习”

OpenAI的O1模型发布后，来自上海交大、纽约大学、MBZUAI和GAIR的研究团队启动了一项透明的实时探索项目，旨在复制O1模型的功能。他们采用了一种名为"旅程学习"的新范式，通过提供复制工作的全面、实时记录，包括成功和失败，以促进开放科学，加速集体进步。

2024年10月，来自上海交大、纽约大学、MBZUAI和GAIR的研究团队发布了一篇题为"O1 Replication Journey: A Strategic Progress Report – Part 1"的论文。这篇论文详细介绍了研究团队在复制OpenAI O1模型功能方面的进展。

研究团队采用了一种名为"旅程学习"的新范式，鼓励模型不仅学习捷径，还学习完整的探索过程，包括反复试验、反思和回溯。仅使用327个训练样本，并且没有使用任何额外技巧，旅程学习在MATH数据集上的表现就比传统监督学习高出8%以上，展现了其极其强大的潜力。

研究历程概述

研究团队从2023年12月开始，对O1技术进行了持续的研究探索。研究活动主要包括以下几个阶段：

初始评估和知识获取
团队组建和分析
四次长期思考构建尝试

其中，第二次尝试是核心探索，分为三个轨道：

过程级奖励模型
推理树的构建
将推理树集成到长期思考中

研究团队开发了一个可视化平台，用于展示探索过程。该平台支持详细的条件过滤，例如过滤回答正确或错误的问题，或者输出是否包含表示思考或犹豫的关键词（例如"等待"）。

捷径学习与旅程学习

大多数现有的机器学习或大语言模型训练方法（例如监督微调）都可以归类为"捷径学习"。这种传统范式虽然在特定的、定义明确的任务中可能有效，但在面对复杂、动态和开放式问题时却显示出明显的局限性。捷径学习有几个关键特征：

快速结果导向：它强调在短时间内实现特定的性能指标或完成特定任务。
数据依赖性强：性能改进通常依赖于增加训练数据量，而不是增强学习算法本身。
泛化能力有限：在训练数据分布之外的场景中，性能可能会急剧下降。
缺乏自我纠正：这些系统通常缺乏识别和纠正自身错误的能力。

虽然捷径学习推动了人工智能的许多进步，但它很难产生真正智能、可靠的人工智能系统，能够处理现实世界的复杂挑战。

旅程学习的关键组件

过程奖励模型（PRM）

过程奖励模型（PRM）用于对LLM的响应进行细粒度评估，尤其是在数学推理领域。通过准确评估每个步骤的正确性，PRM可以提高训练后质量，并通过各种搜索方法提高推理过程中的准确性。

思维链（COT）理论

思维链（CoT）提示显著提高了LLM的推理能力。基础研究表明，提供中间推理步骤可提高复杂任务（例如算术和常识推理）的性能。此外，理论研究表明，CoT通过实现固有的串行计算为仅解码器的Transformer提供支持，否则这种计算是缺乏的，尤其是在低深度Transformer中。

内部思维

随着研究人员强调模型需要反思其推理并改进其输出，对人工智能模型中内部思维的探索也不断发展。早期的研究，如STaR提出了引导推理，让模型生成解释其决策的理由，从而使它们能够通过迭代细化来提高其在复杂任务上的表现。

推理-时间规模化

近年来的研究表明，与增加模型参数或训练数据量等传统扩展方法相比，规模化推理-时间可以更有效地提高模型性能。推理-时间规模化具有几个优点：

资源效率：更充分地利用现有模型容量
适应性计算：为复杂任务分配更多处理时间
通过逐步解决问题或迭代改进推理

搜索-到-思维

近年来，从传统的基于搜索方法转向隐式推理方法，极大地推动了人工智能研究。隐思维链推理通过利用模型的内部隐态来绕过生成显式推理步骤的需要。这种方法从经过训练以生成中间步骤的教师模型中提取知识，使学生模型能够通过其内部层进行垂直推理来更有效地解决任务。

LLM中的自我改进

LLM的自我改进方法旨在通过使模型能够在最少的人为干预下从自己的输出中学习来提高模型性能。这些方法通常涉及对模型生成的高质量输出进行监督微调或偏好优化。然而，最近的研究结果表明，LLM生成的文本通常表现出截断的"尾部"，这意味着生成的输出分布缺乏人类生成内容中的可变性，特别是在较不常见的异常响应中。这种可变性的降低可能导致一种称为模型崩溃的现象，即模型收敛到更窄的行为范围，最终损害性能。

O1模型的长期思考过程

落地于"旅程学习"，O1的长期思考过程不仅仅是延长计算时间，而且代表了彻底的、类似人类的推理探索。这种方法使O1能够处理更复杂的问题，提供更可靠、更可解释的答案，并在面对新挑战时表现出更大的适应性，从而解释了它在各种任务中的出色表现。

构建长思考的方法

LLM树搜索和奖励
提议-批评环
多智体方法
完成人类思考进程的标注

奖励定义

不只关注最终结果，更注重提升LLM在反思、回溯和相关认知过程方面的能力。因此，在步骤级别定义评估粒度。

推理树的构建

推理树的构建需要一个能够进行单步推理的策略模型π，给定一个问题q及其对应的最终答案a，π以该问题为根节点出发，不断向树中添加新节点。一旦推理树构建完成，从树中得出一个包含反复试验的长远想法。这种方法与传统方法形成鲜明对比，传统方法只关注通向正确答案的捷径和有效的中间步骤。在本框架中，推理树的每个节点，都标注了奖励模型的评级，表明该步骤是正确还是不正确，以及证明这一判断的推理。

模型训练

模型训练包括两步：SFT（Supervised Fine-Tuning）和DPO（Direct Preference Optimization）。

标注方法

完成思维进程
附加常识的解释

基于提示实现数据增强

数据粒度增强
渐近推理
学生-开拓者视角

今后的计划

扩大长期思维整合
长期思维规模化定律实验
细粒度、以思维为中心的评估
人-AI协作实现高质量思维
持续改进奖励和批评模型
推理树的高级集成
扩展训练方法
持续的透明度和资源共享
多智体方法的探索
改进分析工具

结论

研究团队采用的"旅程学习"范式为人工智能研究提供了一种新的思路和方法。通过提供复制工作的全面、实时记录，包括成功和失败，研究团队旨在促进开放科学，加速集体进步，并为人工智能驱动的科学发现奠定基础。研究团队开发的可视化平台和分析工具，为理解和改进模型的推理能力提供了有力的支持。研究团队的未来计划将进一步推动这一领域的研究和发展。