Meta Dualformer：双过程技术开启AI新纪元

创作时间:

2025-01-22 21:26:59

作者:

@小白创作中心

Meta Dualformer：双过程技术开启AI新纪元

2024年10月，Meta FAIR团队提出了一种新型Transformer架构——Dualformer，该模型模仿人类的快慢思维（System 1和System 2），可以在快速和慢速模式之间切换。这一创新性研究为AI系统的发展提供了新的思路。

Dualformer：可控的快慢思维

在人类认知理论中，思考过程受到两个系统控制：速度快、基于直觉的System 1，以及速度慢、深思熟虑的System 2。近期研究表明，将System 2过程整合进Transformer和大型语言模型中，可以显著提升其推理能力。然而，这也会导致计算成本大幅增加，响应速度变慢。

为了解决这一难题，Meta FAIR团队提出了Dualformer。这是一种可以轻松配置的Transformer，用户可以指定在推理过程中使用快速或慢速模式，未指定时模型也可以自行决定。

具体而言，研究团队让Transformer在包含推理轨迹和最终解答的数据上进行训练。利用推理步骤的结构，他们设计了特定的轨迹丢弃策略，使得生成的轨迹类似于System 1在思考过程中采取的捷径。在极端情况下，会丢弃整个轨迹并鼓励Transformer绕过所有中间步骤，直接输出最终解答。在训练时，他们的策略是随机选择这些结构化的轨迹丢弃策略。

双过程技术：AI的未来方向

双过程技术（Dual Process Theory）最早由诺贝尔经济学奖得主丹尼尔·卡内曼在其著作《思考，快与慢》中提出。他认为人类的思维过程可以分为两个系统：快速、自动化的System 1和缓慢、理性的System 2。这种理论框架已被广泛应用于理解人类决策过程。

在AI领域，双过程技术的研究正在快速发展。谷歌DeepMind提出的Talker-Reasoner框架，将AI Agent分为快速对话生成的Talker模块和复杂推理的Reasoner模块，分别对应System 1和System 2。这种设计使得AI系统能够更好地处理复杂任务，同时保持高效的响应速度。

未来趋势：更智能、更人性化的AI

智源研究院预测，2025年AI技术将呈现以下重要趋势：

科学的未来： AI4S（AI for Science）将成为推动科学研究范式变革的关键力量。多模态大模型将进一步融入科学研究，为生物医学、气象、材料发现等领域的研究开辟新方向。
具身智能元年： 具身智能将继续从本体扩展到具身脑的叙事主线。在技术路线上，端到端模型继续迭代，小脑大模型的尝试或有突破。
统一的多模态大模型： 从训练之初就打通多模态数据，实现端到端输入和输出的原生多模态技术路线，给出了多模态发展的新可能。
强化学习与大模型结合： 强化学习作为发现后训练、推理阶段的Scaling Law的关键技术，也将会得到更多的应用和创新使用。
世界模型： 更注重“因果”推理的世界模型将赋予AI更高级别的认知和更符合逻辑的推理与决策能力。
合成数据： 合成数据将成为大模型迭代与应用落地的重要催化剂，可以降低人工治理和标注的成本，缓解对真实数据的依赖。
推理优化： 算法加速和硬件优化技术持续迭代，双轮驱动加速AI Native应用落地。
Agentic AI： 更通用、更自主的智能体将重塑产品应用形态，成为大模型产品落地的重要应用形态。
AI应用： 生成式模型在图像、视频侧的处理能力得到大幅提升，叠加推理优化带来的降本，为AI超级应用的落地积基树本。
AI安全治理： 作为复杂系统，大模型的Scaling带来了涌现，但复杂系统特有的涌现结果不可预测、循环反馈等特有属性也对传统工程的安全防护机制带来了挑战。