姚期智团队推出DoT框架:用有向无环图革新大模型推理
姚期智团队推出DoT框架:用有向无环图革新大模型推理
姚期智院士团队推出大模型新推理框架——思维图(Diagram of Thought,简称DoT),该框架通过在单一模型内构建有向无环图(DAG),让大模型的思考过程更贴近人类思维方式。
相比Chain of Thought(CoT)将推理过程表示为线性序列,DoT更能捕捉人类推理的复杂性。同时,与引入分支结构的Tree of Thought(ToT)和Group of Thought(GoT)不同,DoT不需要依赖外部控制机制或多个模型协作,训练部署更简单。
DoT的秘诀在于将LLM中的迭代推理建模为在单一模型内构建有向无环图(DAG)。DAG由代表命题、批评、精炼和验证的节点组成,边表示它们之间的逻辑关系或依赖关系,且不存在任何循环路径。这种无环的特性确保推理过程不受循环依赖的影响,能更真实反映合理的逻辑推导。
DoT框架内部管理三个关键角色:
- 提议者:生成命题或推理步骤,添加新节点。
- 批评者:评估命题,识别错误、不一致或逻辑谬误,并添加批评节点。
- 总结者:将经过验证的命题综合成一个连贯的思维链,执行DAG的拓扑排序以产出最终的推理输出。
这三个角色通过使用特殊token(如
推理过程始于提议者引入一个命题,向DAG添加一个节点。然后,由批评者评估验证或提供批评。如果提供了批评,将添加一个新节点,并在该命题和批评之间建立一个边。基于批评,提议者生成一个精炼改进过的命题,表示为DAG中的一个新节点。这一过程重复进行,直到命题得到验证。一旦建立了足够有效的命题,总结者就会综合这些推理,对DAG进行拓扑排序以产生一个连贯的思维链。
通过让模型接触正确和错误的推理,DoT允许LLM从错误中学习,随着时间的推移不断精炼其推理,这也更像人类解决问题的方式。这种方法不仅捕捉了推理的非线性和迭代特性,还通过自然语言批评提供了比二元信号更丰富的反馈。
DoT的训练涉及使用格式化为DoT结构的训练样例,包括角色特定token和DAG表示。在推理过程中,模型基于上下文线索和角色特定token生成命题、批评和总结。这种方法简化了部署,消除了对多LLM协作或外部控制机制的需求,同时与标准LLM训练范式保持一致,便于集成到现有工作流程中。
作者还为DoT框架提供了严格的数学基础,利用拓扑斯理论(Topos Theory)对推理过程进行了形式化描述。在这个框架中,命题被建模为拓扑中终端对象的子对象,逻辑关系和推理步骤表示为态射,批评和改进过程分别对应到子对象分类器的态射和命题间的态射。通过引入PreNet范畴,他们还成功捕捉了推理过程的动态和并发特性。这种数学基础不仅确保了推理过程的逻辑一致性和完备性,还为设计下一代专门用于推理的AI模型提供了概念框架。
团队背景
这项研究由清华大学交叉信息研究院的顶尖团队完成:
张伊凡:论文第一作者,2021年本科毕业于北京大学元培学院,现为清华大学交叉信息学院博士研究生,师从袁洋助理教授。研究方向为基础模型(大语言模型)的理论和算法、自监督学习、可信人工智能。
袁洋:清华大学交叉信息学院助理教授,博士生导师。2012年毕业于北京大学计算机系,2018年获美国康奈尔大学计算机博士学位,2018-2019年在麻省理工学院大数据科学学院做博士后。研究方向包括智能医疗、AI可解释性、AI大系统等。
姚期智:中国科学院院士、清华大学交叉信息研究院院长,是“图灵奖”创立以来首位获奖的亚裔学者,也是迄今为止获此殊荣的唯一华人计算机科学家。研究方向包括算法、密码学、量子计算等。
与累积推理(CR)的关系
值得注意的是,DoT是对姚期智团队一年前提出的累积推理(Cumulative Reasoning,CR)方法的进一步深化。CR协调了一个涉及不同专业化大语言模型的迭代过程,由不同模型承担提议者、验证者和报告者角色。而DoT直接在单一模型内构建有向无环图,不依赖于外部控制机制或多个模型,训练和部署更简单。此外,DoT中的批评反馈是自然语言形式的,而不是像CR那样只给出二值信号,这使得模型可以接收到关于错误的详细解释,有助于更有效地改进命题。
这项研究的论文链接为:https://arxiv.org/abs/2409.10038