超全推理语言模型蓝图来了!揭开o1、o3、DeepSeek-V3神秘面纱
超全推理语言模型蓝图来了!揭开o1、o3、DeepSeek-V3神秘面纱
推理语言模型(Reasoning Language Models,RLM)是AI领域的革命性突破,它们的出现可以与ChatGPT的出现相提并论。RLM已成为迈向通用人工智能(AGI)的新的里程碑。近日,联邦理工联合其他机构的研究人员,在arxiv发表了论文,基于对RLM研究工作的调查和分析,提出了全面的蓝图,将RLM组件组织为模块化框架,包含了不同的推理结构、推理策略和监督方案。
RLM与LLM的联系与区别
标准的大语言模型(LLM),依靠自回归的token预测机制,主要在搜索空间中执行插值。它们擅长生成符合训练数据模式的响应,有效地综合已知上下文中的知识。然而,这将它们的输出限制在训练分布的边界内。
相比之下,推理语言模型(RLM)则突破了这些边界,结合结构化探索,在解决方案空间中探索未知领域,生成超越训练数据限制的新见解和新方案。这种能力实现了从简单模式补全到主动问题解决的转变。
RLM的架构与训练流程
整个RLM架构由三大主要流程组成:推理、训练和数据生成。
- 推理流程:用于响应用户请求,采用训练流程提供的模型(例如价值或策略模型)。
- 训练流程:模型的训练方式取决于训练目标。通常,需要微调某些模型(如Llama)。在此过程中,首先利用监督数据,这些数据通常来源于现有数据集,例如PRM800K。
- 数据生成流程:在内部设计上与推理流程类似;主要区别在于它独立于用户请求运行,生成的数据随后用于重新训练模型。
RLM的分类
RLM根据推理实现方式,进一步分为隐式RLM和显式RLM:
- 隐式推理模型:推理结构完全嵌入于模型权重中,推理是隐式的,无法明确解读或操控。尽管相比标准LLM,这些模型展现出更强的推理能力,但其推理过程是不可见的,依赖于训练时学习的内部化模式。
- 显式推理模型:在核心权重之外加入了显式推理机制。例如,LLaMA-Berry、Marco-o1以及可能存在的OpenAI的o3模型,结合蒙特卡洛树搜索(MCTS)与强化学习(RL)进行决策。通过将推理与权重中编码的静态知识分离,这些模型在推理过程中具有更大的灵活性和解释性。需要注意的是,这种显式推理可以通过训练被内化,最终转变为隐式推理。
RLM的蓝图
蓝图提供了一套工具箱组件,用于构建任意RLM。核心组件包括:
- 推理方案:指定推理结构(例如树)及推理策略(例如MCTS),决定如何演变结构以解决输入任务。
- 操作符:用于作用于推理结构以推进其演变的工具(如Refine)。
- 模型与训练范式:支撑操作符实现的神经模型(如策略模型)及其训练框架。
- 流程:定义操作的细节规范,用于协调推理方案与操作符的交互以实现特定目标(如训练、推理或数据生成)。
RLM的训练方法
RLM模型常见的训练范式包括:
- 监督微调(SFT),其中模型在带有Q值的推理序列上进行训练;
- 拒绝采样,根据质量标准过滤生成的输出;
- 以及强化学习方法,如近端策略优化(PPO),直接偏好优化(DPO),以及推理特定的变体,如推理策略优化(RPO)。
另外一些训练范式包括自我学习,其中模型通过生成和评估自身的推理序列进行迭代改进,从而模拟竞争或合作的推理场景。
RLM的评估方法
基于过程的评估,已被证明比其他方法更为可靠。通过检查推理步骤及其在结构中的关系,基于过程的评估提供了更丰富的信号,帮助模型优化其推理路径,并提高整体准确性。这种方法确保每个中间步骤对最终结果作出积极贡献,从而实现更强大的推理能力,并提高跨任务的泛化能力。
RLM的未来展望
RLM的出现为AI领域带来了革命性的突破,它们不仅能够突破传统LLM的局限,还为实现通用人工智能(AGI)开辟了新的路径。然而,最先进的RLM因其高昂的成本和专有特性,引发了关于可访问性和公平性的重大担忧。因此,如何降低RLM的使用成本,提高其可访问性,将是未来研究的重要方向。