Meta版o1来了!田渊栋团队整合快慢思考,能走迷宫推箱子
Meta版o1来了!田渊栋团队整合快慢思考,能走迷宫推箱子
Meta公司田渊栋团队最新研究成果Dualformer模型,通过结合快慢思考模式,有效解决了复杂推理任务中的计算成本问题。在迷宫和推箱子等任务中,Dualformer不仅保持了高准确率,还大幅减少了推理步骤,展现了其在AI领域的创新性和实用性。
Dualformer:快慢思考的完美结合
Dualformer模型通过让模型在推理轨迹和最终答案上进行训练,再基于特定策略丢掉部分轨迹,可以在模仿慢思考的同时,像快思考一样走捷径。这种设计使得模型能够形成更简洁的思维链(CoT)。
研究发现,人类会在思考过程中倾向于找捷径。为了更进一步模拟人类,Dualformer在随机推理轨迹数据上进行训练,并在训练过程中依据定制的丢弃策略丢到部分结构。比如在处理路径规划任务时,根据搜索轨迹中的不同子句(如close子句、子句中的cost tokens、create子句等)设计了四个级别的丢弃策略,从只丢弃close子句到丢弃整个轨迹,并在训练时随机选择应用这些策略。
基于这些策略,Dualformer可以学习更简洁有效的搜索和推理过程。在推理阶段,Dualformer可配置快速模式(仅输出解决方案)、慢速模式(输出推理链和最终解决方案)或自动模式(自行决定推理模式)。这种灵活的推理模式设计使得模型能够根据不同任务需求和场景进行自适应调整,类似于人类思维在不同情况下的决策方式。
实验结果:性能与效率的双重突破
研究团队设置了迷宫(Maze)和推箱子游戏(Sokoban)等任务,让模型进行路径规划。对比来看,在迷宫任务中,o1-preview和o1-mini模型输出的路径并不好,会“穿墙”。
快思考模式下,Dualformer的表现如下。Dualformer以80%的最优率完成这些任务,显著优于仅基于解决方案数据训练的Solution-Only模型,后者的最优率仅为 30%。
慢思考模式表现如下。30×30迷宫任务中,在97.6%的情况下可以达到最优解,同时推理步骤减少45.5%。
自动切换快慢思考模式下,Dualformer的最优率达到 96.6%,与Searchformer相比,推理步骤减少59.9%。
将该方法推广到Mistral-7B和Llama3-8B上,在Aug-MATH数据集上,模型的表现都有所提升。比如在Mistral-7B模型上,当p=0.1、0.2和0.3时,Pass@20度量的基线模型,其中绝对正确率增加到61.9%。
结语
Dualformer模型的创新性在于其能够灵活切换快慢思考模式,既保持了推理的准确性,又大幅降低了计算成本。这一研究成果对于推动AI在复杂推理任务中的应用具有重要意义。