资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

比COT更高效的推理提示策略Chain-of-Draft（COD）

创作时间:

作者:

@小白创作中心

比COT更高效的推理提示策略Chain-of-Draft（COD）

引用

CSDN

https://blog.csdn.net/llm_way/article/details/146008946

随着大语言模型（LLMs）在复杂任务上的应用越来越广泛，如何提高其推理效率成为了一个重要课题。本文介绍了一种新的推理提示策略——Chain-of-Draft（CoD），它通过模仿人类简洁的推理方式，在减少推理延迟和计算成本的同时，保持甚至提升了模型的准确性。

一、LLMs 推理策略发展脉络

早期的 LLMs 在面对复杂推理任务时，往往直接给出答案，缺乏对推理过程的展示。这种方式虽然简单直接，但对于需要多步推理的问题，模型容易出错，且结果缺乏可解释性。随着研究的深入，研究者发现模仿人类结构化推理过程能提升模型表现，于是 CoT 提示策略诞生。

CoT（自动思维链）鼓励模型将问题分解为逐步探索的过程，就像人类在解决复杂问题时会逐步思考一样。例如在解决数学问题时，模型会详细列出每一步的推理过程，从已知条件出发，逐步推导到最终答案。这一策略显著提高了 LLMs 在复杂任务上的准确性，使其能够处理诸如数学应用题、逻辑推理等多种类型的问题。然而，CoT 也存在明显的缺陷。它在推理过程中会产生大量冗长的中间步骤，导致输出的文本包含许多不必要的细节，这不仅增加了计算资源的消耗，延长了推理时间，还使得模型在实际应用中的效率大打折扣。

二、CoD Prompting 策略详解

（一）策略的提出

人类在解决复杂问题时，通常不会详细阐述每一个细节，而是会记录关键的中间结果，形成简洁的草稿，以推动思考过程。CoD 正是受到这一人类认知行为的启发而提出的。它旨在通过限制每个推理步骤使用的单词数量，减少冗长的表述，仅关注推进问题解决所需的关键计算或转换，从而使 LLMs 在推理过程中生成简洁且信息丰富的输出。

（二）与其他提示策略对比示例

以一个简单的算术问题为例：“Jason 有 20 根棒棒糖，他给了 Denny 一些，现在 Jason 还剩 12 根。Jason 给了 Denny 多少根棒棒糖？”

标准提示策略

模型直接输出答案 “8”，没有任何推理过程。这种方式虽然简洁，但缺乏透明度，模型在处理复杂问题时容易出现幻觉，因为它没有借助中间结果进行多步推理。

CoT 提示策略

会详细地逐步推理，如 “让我们一步一步思考：1. 最初，Jason 有 20 根棒棒糖。2. 给 Denny 一些后，Jason 现在有 12 根棒棒糖。3. 为了求出 Jason 给 Denny 的棒棒糖数量，我们需要计算最初的棒棒糖数量和剩余数量之间的差值。4. 我们可以建立一个简单的减法问题：最初的棒棒糖数量 - 剩余的棒棒糖数量 = 给 Denny 的棒棒糖数量。5. 代入数字：20 - 12 = 给 Denny 的棒棒糖数量。6. 解这个减法：20 - 12 = 8。因此，Jason 给了 Denny 8 根棒棒糖。” 这个过程虽然准确且可解释，但包含了过多与数学计算本身无关的细节，如对 Jason、Denny 和棒棒糖的描述，导致 token 数量增加，响应延迟变长。

CoD 提示策略

将推理过程浓缩为 “20 - x = 12; x = 20 - 12 = 8.”，通过简洁的方程直接聚焦于关键的数学运算，在保持推理透明度和正确性的同时，显著减少了 token 数量。

三、CoD Prompting 的实验验证

（一）实验设置

为了验证 CoD 的有效性，研究人员进行了一系列实验，涵盖了算术推理、常识推理和符号推理三类任务。在实验中，对比了三种提示策略：标准提示、CoT 提示和 CoD 提示。标准提示采用标准的少样本提示方式，让模型直接返回最终答案；CoT 提示遵循 CoT 论文附录中的少样本示例，并在答案后加上 “####” 以更稳定地提取答案；CoD 提示则要求模型逐步思考，但每个推理步骤最多限制为五个单词，同时为每个少样本示例提供人工编写的草稿链。实验使用了 OpenAI 的 GPT-4o 和 Anthropic 的 Claude 3.5 Sonnet 这两种流行的旗舰模型。

（二）算术推理实验结果

在评估 LLMs 算术推理能力的 GSM8k 基准测试中，标准提示下，GPT-4o 和 Claude 3.5 Sonnet 的准确率分别仅为 53.3% 和 64.6%。使用 CoT 提示后，两个模型的准确率均超过 95%，但代价是每个响应生成约 200 个 token。而 CoD 提示下，两个模型的准确率都达到了 91% 左右，每个响应仅需约 40 个 token，平均输出 token 数量减少了 80%，平均延迟分别降低了 76.2% 和 48.4%。这表明 CoD 在算术推理任务中，能够在保持较高准确率的同时，大幅减少计算资源的消耗和推理时间。

（三）常识推理实验结果

在常识推理任务中，选取了 BIG-bench 中的日期理解和体育理解任务进行评估。实验结果显示，与 CoT 相比，CoD 生成的响应 token 数量显著减少，同时在准确率上也有出色表现，甚至在某些情况下超过了 CoT。例如，在 Claude 3.5 Sonnet 处理体育理解任务时，CoT 生成的响应平均有 189.4 个 token，而 CoD 仅为 14.3 个 token，减少了 92.4%，且 CoD 的准确率更高。这进一步证明了 CoD 在常识推理任务中的有效性和高效性。

（四）符号推理实验结果

对于符号推理任务，研究人员合成了一个包含 250 个示例的测试集，要求 LLMs 预测一系列抛硬币动作后硬币的状态。实验结果表明，标准提示下，GPT-4o 和 Claude 3.5 Sonnet 的准确率分别为 73.2% 和 85.2%。使用 CoT 和 CoD 提示后，两个模型都达到了 100% 的准确率。并且，CoD 再次展现出减少 token 数量的优势，与 CoT 相比，GPT-4o 的 token 数量减少了 68%，Claude 3.5 Sonnet 减少了 86%。

四、CoD Prompting 的优势与应用前景

（一）降低延迟和成本

CoD 最大的优势之一在于其显著降低了推理延迟和计算成本。通过精简推理步骤，减少 token 数量，模型在生成响应时所需的计算资源更少，推理速度更快。这对于许多对延迟敏感的实时应用场景，如智能客服、实时问答系统等至关重要。在这些场景中，快速的响应能够提升用户体验，而 CoD 的出现为实现这一目标提供了有力支持。同时，在大规模部署 LLMs 时，计算成本是一个重要的考虑因素，CoD 能够直接降低成本，使得模型的应用更加经济可行。

（二）保持推理深度与准确性

尽管 CoD 减少了推理步骤的表述，但并没有牺牲推理的深度和准确性。实验结果表明，在多个任务中，CoD 能够达到与 CoT 相当甚至更高的准确率。这说明 CoD 在去除冗余信息的同时，成功保留了关键的推理逻辑，使模型能够准确地解决问题。这种在简洁性和准确性之间的平衡，为 LLMs 的发展提供了新的思路，即有效的推理并不一定需要冗长的输出。

（三）为 LLM 设计与应用带来新启发

CoD 的设计理念为 LLM 的设计和部署提供了新的方向。在模型训练阶段，可以考虑使用紧凑推理数据进行训练，以引导模型学习更高效的推理方式。此外，CoD 可以与其他降低延迟的方法，如自适应并行推理或多轮验证相结合，进一步优化模型在不同应用领域的性能。在实际应用中，CoD 能够使 LLMs 更好地适应各种场景的需求，推动自然语言处理技术在更多领域的应用和发展。

CoD 提示策略作为一种创新的方法，为 LLMs 在复杂推理任务中的高效执行提供了新的解决方案。它通过模仿人类简洁的推理方式，在减少推理延迟和计算成本的同时，保持甚至提升了模型的准确性。然而，这一策略仍有进一步探索和优化的空间。未来的研究可以深入挖掘 CoD 与其他技术的融合方式，进一步提高模型的性能和适应性。

参考文献：
CoD论文