资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

田渊栋团队论文火了！连续思维链优于CoT，打开LLM推理新范式

创作时间:

作者:

@小白创作中心

田渊栋团队论文火了！连续思维链优于CoT，打开LLM推理新范式

引用

CSDN

https://blog.csdn.net/qq_27590277/article/details/144463429

Meta和加州大学圣地亚哥分校的研究团队提出了一种新的LLM推理范式——Coconut（连续思维链）。这种方法通过在潜在空间中进行推理，突破了传统思维链（CoT）方法的局限性，展现了更强的推理能力和规划能力。

在认知科学领域，关于语言是用于思考还是用于交流的辩论一直持续。随着LLM和CoT的兴起，语言已经成为机器推理的默认媒介——但它真的是最佳方法吗？

一般而言，LLM被限制在语言空间（language space）内进行推理，并通过思维链（CoT）来表达推理过程，从而解决复杂的推理问题。然而，语言空间可能并不总是最适合推理的。例如，很多单词token主要用于文本连贯性，而不是推理本身，而一些关键token则需要复杂的规划，这种差异给LLM带来巨大的挑战。

为了探索LLM在不受限制潜在空间中的推理潜力，而非使用自然语言，来自Meta、加州大学圣地亚哥分校的研究者提出了一种新的范式——Coconut（连续思维链，Chain of Continuous Thought），来探索LLM在潜在空间中的推理。

论文标题：Training Large Language Models to Reason in a Continuous Latent Space

论文地址：https://arxiv.org/pdf/2412.06769

Coconut涉及对传统CoT过程的简单修改：Coconut不再通过语言模型头（language model head）和嵌入层将隐藏状态与语言token进行映射，而是直接将最后的隐藏状态（即连续思维）作为下一个token的输入嵌入（如图1所示）。

这种修改将推理从语言空间中解放出来，并且由于连续思维是完全可微的，因此可以通过梯度下降对系统进行端到端优化。为了增强潜在推理的训练，本文采用了多阶段训练策略，该策略有效地利用语言推理链来指导训练过程。

这种范式带来了高效的推理模式，与基于语言的推理不同，Coconut中的连续思维可以同时编码多个潜在下一步，从而实现类似于BFS（breadth-first search）的推理过程。尽管模型在初始阶段可能做出不正确的决策，但它可以在连续思维中保持许多可能的选项，并通过推理逐步排除错误路径，这一过程由一些隐含的价值函数引导。这种高级的推理机制超越了传统的CoT，即使模型并没有显式地接受训练或指示以这种方式操作。

实验表明，Coconut成功增强了LLM的推理能力。对于数学推理（GSM8k），使用连续思维被证明有利于提高推理准确率，这与语言推理链的效果相似。通过链接更多连续思维，可以扩展和解决日益具有挑战性的问题。

在逻辑推理方面，包括ProntoQA和本文新提出的ProsQA，这需要更强的规划能力，Coconut及其一些变体甚至超越了基于语言的CoT方法，同时在推理过程中生成的token明显更少。

这项研究在X上的讨论量非常高，其中单人转发的浏览量就高达20多万。

连续思维链：Coconut

方法概述。在Coconut方法中，LLM在语言模式和潜在模式之间切换（图1）：

在语言模式下，该模型作为标准语言模型运行，自回归生成下一个token。
在潜在模式下，它直接利用最后一个隐藏状态作为下一个输入嵌入。这个最后的隐藏状态代表当前的推理状态，称为连续思维。

特殊token、分别用于标记潜在思维模式的开始和结束。

训练。本文专注于问题-解决设置，其中模型接收问题作为输入，并通过推理过程生成答案。作者利用语言CoT数据来监督连续思维。如图2所示，在初始阶段，模型在常规CoT实例上进行训练。在后续阶段，即第k阶段，CoT中的前k个推理步骤被替换为k×c个连续思维，其中c是一个超参数，用于控制替换单个语言推理步骤的潜在思维的数量。

推理过程。Coconut的推理过程类似于标准的语言模型解码过程，不同之处在于，在潜在模式下，本文直接将最后一个隐藏状态作为下一个输入嵌入。这样做面临的挑战是确定何时在潜在模式和语言模式之间切换。当专注于问题-解决设置时，本文会在问题token后立即插入一个token。对于，作者考虑两种潜在策略：a)在潜在思维上训练二元分类器，使模型能够自主决定何时终止潜在推理，或b)始终将潜在思维填充到恒定长度。本文发现这两种方法效果都相当好。除非另有说明，本文在实验中使用第二种选项以简化操作。

实验

研究团队通过三个数据集验证了大语言模型在连续潜空间中进行推理的可行性。实验主要评估模型生成答案的准确性和推理效率。

实验涉及两类主要任务：数学推理和逻辑推理。数学推理使用GSM8k数据集。逻辑推理则采用了两个数据集：5-hop ProntoQA与该团队自行开发的ProsQA。ProntoQA给出一个层级分类的知识结构，要求模型判断不同类别之间的从属关系是否正确。而ProsQA中是更具挑战性的推理任务，包含许多随机生成的有向无环图，要求模型进行大量规划和搜索。

实验设置

在实验设置方面，研究采用预训练的GPT-2模型，学习率为1×10^−4，批量大小为128。

对于数学推理任务，每个推理步骤使用2个潜在思维向量表示，整个训练过程分为4个渐进式阶段。

在逻辑推理任务中，每步使用1个潜在思维向量，训练分为7个渐进式阶段，逐步增加难度。所有实验均在标准训练流程后继续训练至第50轮，并通过在验证集上评估准确率来选择性能最佳的模型检查点用于最终测试。

基线方法和各种版本的Coconut

为了全面评估方法效果，研究团队设置了以下基线方法进行对比：

传统的CoT：使用完整的思维链进行训练，让模型生成每一步的推理过程
No-CoT：模型直接生成最终答案，不要求中间推理步骤
iCoT：采用渐进式策略，逐步移除推理链中的步骤
Pause token：在问题和答案之间插入特殊的暂停token

同时，他们还评估了Coconut的三个变体版本：

无课程学习版本：跳过渐进训练，直接采用最终阶段的训练方式
无思维版本：移除连续思维表示，仅保留分阶段训练机制
思维替换版本：用特殊token替代连续思维的表示方式

结果与讨论

表1展示了所有数据集的整体结果。连续思维有效增强了大语言模型的推理能力，这从其相比无CoT基线的一致性提升可以看出。在ProntoQA和ProsQA上，其表现甚至超过了CoT。

研究团队从实验中得出了以下几个关键结论：

连续思维的「链式」组合增强了推理能力。在传统CoT中，输出token会作为下一步的输入，这被既有的研究证明可以增加模型的有效深度和表达能力。该团队进一步探索了这一特性是否也适用于潜空间推理，因为这意味着这种方法可以通过链接多个潜在思维来解决更复杂的问题。

在GSM8k数据集的实验中，Coconut的表现优于其他采用类似策略训练的架构，特别是超过了最新的iCoT基线，也显著优于同样能增加计算能力的Coconut（pause as thought）变体。虽然此前的研究已经证明特殊的token可以解决高度并行化的问题，该研究团队的结果显示Coconut架构在一般问题上更有效，比如数学应用题这种后续步骤高度依赖前序步骤的问题。

此外，当调整控制每个语言推理步骤对应潜在思维数量的参数c时（见图3），随着c从0增加到1再到2，模型性能稳步提升。这表明类似CoT的链式效应在潜空间中也存在。

潜在空间推理在规划密集型任务中优于语言推理。复杂推理往往要求模型「前瞻」并评估每一步的合理性。在研究团队的数据集中，GSM8k和ProntoQA由于问题结构直观且分支有限，相对容易预测下一步。相比之下，ProsQA的随机生成DAG结构显著挑战了模型的规划能力。

如表1所示，CoT相比No-CoT并无明显改进。然而，Coconut及其变体和iCoT在ProsQA上大幅提升了推理能力，表明潜空间推理在需要大量规划的任务中具有明显优势。

模型仍需指导来学习潜在空间推理理想情况下，模型应该能通过问答数据的梯度下降自动学习最有效的连续思维（即无课程学习版本的Coconut）。然而，实验结果显示这种训练方式的表现并不优于no-CoT。将训练分解按照目标划分为多阶段课程，Coconut在各种任务中都取得了最佳性能。

连续思维是推理的高效表示虽然连续思维最初并不是为了转换成具体的语言文字而设计的，但该团队发现它可以用来直观地解释推理过程。图4展示了一个由Coconut（c=1）解决的数学应用题案例研究。第一个连续思维可以解码为「180」、「180」（带空格）和「9」等token。这个问题的推理过程应该是3×3×60=9×60=540，或3×3×60=3×180=540。这恰好对应了解题过程中的第一步中间计算结果（3×3×60可以先算出9或180）。更重要的是，连续思维能够同时包含多种不同的解题思路，这种特性使它在需要复杂规划的推理任务中表现出色。

理解Coconut中的潜在推理机制

接下来，作者使用Coconut的一个变体对潜在推理过程进行了分析。模型：Coconut允许通过在推理期间手动设置的位置来控制潜在思维的数量。当强迫Coconut使用k个连续思维时，该模型预计将从第k+1步开始，用语言输出剩余的推理链。实验采用k∈{0,1,2,3,4,5,6}在ProsQA上测试Coconut的变体。

图5展示了在ProsQA上对不同推理方法的对比分析。随着更多的推理在连续思维中进行（k值增加），最终答案的准确率（图5左）以及正确推理过程的比例（图5右中的Correct Label和Correct Path）都得到了提高。此外，幻觉（Hallucination）和错误目标（Wrong Target）的发生率也下降。这也表明，当更多的推理发生在潜在空间中时，模型的规划能力得到了提升。

图6为一个案例研究，其中CoT产生了幻觉，Coconut（k = 1）导致错误的目标，但Coconut（k = 2）成功解决了问题。在此示例中，模型无法准确确定在早期步骤中选择哪条边。但是，由于潜在推理可以避免在前期做出艰难的选择，因此模型可以在后续步骤中逐步消除不正确的选项，并在推理结束时实现更高的准确率。

潜在搜索树的解释由于连续思维可以编码多个潜在的下一步，潜在推理可以被解释为一个搜索树，而不仅仅是推理「链」。以图6为例，第一步可以选择Alex的任一子节点：{lempus, sterpus, zhorpus, grimpus}。

图7左侧展示了所有可能的分支。同样，第二步的前沿节点是Alex的孙节点（图7右侧）。

与标准广度优先搜索不同，模型展现出优先探索有希望的节点同时剪枝不相关节点的能力。通过分析模型在语言空间的后续输出，研究团队发现了模型的偏好。例如，当模型在一个潜在思维后切换回语言空间（k=1），它会以结构化格式预测下一步。通过检查概率分布，研究团队得到了根节点Alex的子节点的数值（图7左）。同样，当k=2时，也获得了所有前沿节点的预测概率（图7右）。

图8展示了模型如何在潜在思维空间中进行推理。在第一个潜在思维阶段，模型会同时考虑多个可能的推理方向，保持思维的多样性。到了第二个潜在思维阶段，模型会逐步缩小范围，将注意力集中在最可能正确的推理路径上。这种从发散到收敛的推理过程，体现了模型在潜在空间中的推理能力。

为什么潜在空间更适合规划？在这一节中，研究团队探讨了潜在推理在规划中的优势。例如，图6中的「sterpus」是叶节点，无法通向目标节点「bompus」，容易被识别为错误选项。相比之下，其他节点有更多后续的节点需要探索，推理难度更大。研究团队通过测量节点在树中的高度（到叶节点的最短距离）来量化探索潜力。他们发现高度较低的节点更容易评估，因为探索潜力有限。在图6中，模型对高度为2的「grimpus」和「lempus」节点表现出更大的不确定性。

为了更严格地验证这个假设，研究团队分析了测试集中第一步和第二步潜在推理过程中模型预测概率与节点高度之间的相关性。图9揭示了一个规律：当节点高度较低时，模型会为错误节点分配较低值，为正确节点分配较高值。