超全推理语言模型蓝图来了!揭开o1、o3、DeepSeek-V3神秘面纱
超全推理语言模型蓝图来了!揭开o1、o3、DeepSeek-V3神秘面纱
推理语言模型(Reasoning Language Models,RLM)是AI领域的革命性突破,它们的出现可以与ChatGPT的出现相提并论。RLM已成为迈向通用人工智能(AGI)的新的里程碑。近日,联邦理工联合其他机构的研究人员,在arxiv发表了论文,基于对RLM研究工作的调查和分析,提出了全面的蓝图,将RLM组件组织为模块化框架,包含了不同的推理结构、推理策略和监督方案。
RLM与LLM的联系与区别
LLM像内插,RLM可以外推:标准的大语言模型(LLM),依靠自回归的token预测机制,主要在搜索空间中执行插值。相比之下,推理语言模型(RLM)则突破了这些边界,结合结构化探索,在解决方案空间中探索未知领域,生成超越训练数据限制的新见解和新方案。
LLM是「系统1思维」,RLM是「系统2思维」:RLM的发展,融合了三个重要的关键方向:LLM、强化学习(RL)和高性能计算(HPC)。这三者共同塑造了能够实现高效「系统2思维」的模型——结合明确推理与创新问题解决能力的推理水平,区别于「系统1思维」的直觉性、快速且自动化的启发式方法。
RLM的架构与组件
整个RLM架构由三大主要流程组成:推理、训练和数据生成。其中,推理过程从用户输入提示开始,该提示描述了模型需要解决的问题或回答的内容。输入提示构成推理过程的根节点,并启动推理结构的构建,该结构以树状形式组织模型的推理进展。
训练方式则取决于训练目标。通常,需要微调某些模型(如Llama)。在此过程中,首先利用监督数据,这些数据通常来源于现有数据集,例如PRM800K。这些数据成为框架中监督训练数据的一部分,并在监督训练管道中,用于训练蓝图中涉及的部分或全部模型。
RLM的分类与实现
RLM根据推理实现方式,进一步分为隐式RLM和显式RLM:
隐式推理模型:推理结构完全嵌入于模型权重中,推理是隐式的,无法明确解读或操控。尽管相比标准LLM,这些模型展现出更强的推理能力,但其推理过程是不可见的,依赖于训练时学习的内部化模式。
显式推理模型:在核心权重之外加入了显式推理机制。例如,LLaMA-Berry、Marco-o1以及可能存在的OpenAI的o3模型,结合蒙特卡洛树搜索(MCTS)与强化学习(RL)进行决策。通过将推理与权重中编码的静态知识分离,这些模型在推理过程中具有更大的灵活性和解释性。
RLM的蓝图与设计
蓝图提供了一套工具箱组件,用于构建任意RLM。核心组件包括:
- 推理方案:指定推理结构(例如树)及推理策略(例如MCTS),决定如何演变结构以解决输入任务。
- 操作符:用于作用于推理结构以推进其演变的工具(如Refine)。
- 模型与训练范式:支撑操作符实现的神经模型(如策略模型)及其训练框架。
- 流程:定义操作的细节规范,用于协调推理方案与操作符的交互以实现特定目标(如训练、推理或数据生成)。
通过这些组件的组合,RLM的定义得以实现。例如,显式RLM通常采用显式树形结构,其中一个节点表示一个独立的推理步骤。推理策略基于MCTS,并专注于对树中的节点进行迭代探索、扩展和评估。
RLM的训练与评估
RLM模型常见的训练范式包括监督微调(SFT)、拒绝采样以及强化学习方法。基于过程的评估,已被证明比其他方法更为可靠。两阶段训练——分开进行SFT(监督微调)和RL(强化学习)——在多个情境中证明是有效的。
相关基准测试
针对不同类型的推理,包括数学推理、逻辑推理、因果推理和常识推理,列出每个类别的代表性基准测试。这些基准测试有助于评估RLM在不同领域的性能和适用性。
结语
随着RLM研究的不断深入,我们有望看到更多突破性的进展,这些进展不仅将推动AI技术的发展,还将为各行各业带来革命性的变化。ETH Zurich等机构提出的RLM蓝图为我们提供了一个清晰的框架,让我们能够更好地理解RLM的工作原理,并为未来的研究和应用提供了指导。