问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

比COT更高效的推理提示策略Chain-of-Draft(COD)

创作时间:
作者:
@小白创作中心

比COT更高效的推理提示策略Chain-of-Draft(COD)

引用
CSDN
1.
https://blog.csdn.net/llm_way/article/details/146008946

随着大语言模型(LLMs)在复杂任务上的应用越来越广泛,如何提高其推理效率成为了一个重要课题。本文介绍了一种新的推理提示策略——Chain-of-Draft(CoD),它通过模仿人类简洁的推理方式,在减少推理延迟和计算成本的同时,保持甚至提升了模型的准确性。

一、LLMs 推理策略发展脉络

早期的 LLMs 在面对复杂推理任务时,往往直接给出答案,缺乏对推理过程的展示。这种方式虽然简单直接,但对于需要多步推理的问题,模型容易出错,且结果缺乏可解释性。随着研究的深入,研究者发现模仿人类结构化推理过程能提升模型表现,于是 CoT 提示策略诞生。

CoT(自动思维链)鼓励模型将问题分解为逐步探索的过程,就像人类在解决复杂问题时会逐步思考一样。例如在解决数学问题时,模型会详细列出每一步的推理过程,从已知条件出发,逐步推导到最终答案。这一策略显著提高了 LLMs 在复杂任务上的准确性,使其能够处理诸如数学应用题、逻辑推理等多种类型的问题。然而,CoT 也存在明显的缺陷。它在推理过程中会产生大量冗长的中间步骤,导致输出的文本包含许多不必要的细节,这不仅增加了计算资源的消耗,延长了推理时间,还使得模型在实际应用中的效率大打折扣。

二、CoD Prompting 策略详解

(一)策略的提出

人类在解决复杂问题时,通常不会详细阐述每一个细节,而是会记录关键的中间结果,形成简洁的草稿,以推动思考过程。CoD 正是受到这一人类认知行为的启发而提出的。它旨在通过限制每个推理步骤使用的单词数量,减少冗长的表述,仅关注推进问题解决所需的关键计算或转换,从而使 LLMs 在推理过程中生成简洁且信息丰富的输出。

(二)与其他提示策略对比示例

以一个简单的算术问题为例:“Jason 有 20 根棒棒糖,他给了 Denny 一些,现在 Jason 还剩 12 根。Jason 给了 Denny 多少根棒棒糖?”

  • 标准提示策略

模型直接输出答案 “8”,没有任何推理过程。这种方式虽然简洁,但缺乏透明度,模型在处理复杂问题时容易出现幻觉,因为它没有借助中间结果进行多步推理。

  • CoT 提示策略

会详细地逐步推理,如 “让我们一步一步思考:1. 最初,Jason 有 20 根棒棒糖。2. 给 Denny 一些后,Jason 现在有 12 根棒棒糖。3. 为了求出 Jason 给 Denny 的棒棒糖数量,我们需要计算最初的棒棒糖数量和剩余数量之间的差值。4. 我们可以建立一个简单的减法问题:最初的棒棒糖数量 - 剩余的棒棒糖数量 = 给 Denny 的棒棒糖数量。5. 代入数字:20 - 12 = 给 Denny 的棒棒糖数量。6. 解这个减法:20 - 12 = 8。因此,Jason 给了 Denny 8 根棒棒糖。” 这个过程虽然准确且可解释,但包含了过多与数学计算本身无关的细节,如对 Jason、Denny 和棒棒糖的描述,导致 token 数量增加,响应延迟变长。

  • CoD 提示策略

将推理过程浓缩为 “20 - x = 12; x = 20 - 12 = 8.”,通过简洁的方程直接聚焦于关键的数学运算,在保持推理透明度和正确性的同时,显著减少了 token 数量。

三、CoD Prompting 的实验验证

(一)实验设置

为了验证 CoD 的有效性,研究人员进行了一系列实验,涵盖了算术推理、常识推理和符号推理三类任务。在实验中,对比了三种提示策略:标准提示、CoT 提示和 CoD 提示。标准提示采用标准的少样本提示方式,让模型直接返回最终答案;CoT 提示遵循 CoT 论文附录中的少样本示例,并在答案后加上 “####” 以更稳定地提取答案;CoD 提示则要求模型逐步思考,但每个推理步骤最多限制为五个单词,同时为每个少样本示例提供人工编写的草稿链。实验使用了 OpenAI 的 GPT-4o 和 Anthropic 的 Claude 3.5 Sonnet 这两种流行的旗舰模型。

(二)算术推理实验结果

在评估 LLMs 算术推理能力的 GSM8k 基准测试中,标准提示下,GPT-4o 和 Claude 3.5 Sonnet 的准确率分别仅为 53.3% 和 64.6%。使用 CoT 提示后,两个模型的准确率均超过 95%,但代价是每个响应生成约 200 个 token。而 CoD 提示下,两个模型的准确率都达到了 91% 左右,每个响应仅需约 40 个 token,平均输出 token 数量减少了 80%,平均延迟分别降低了 76.2% 和 48.4%。这表明 CoD 在算术推理任务中,能够在保持较高准确率的同时,大幅减少计算资源的消耗和推理时间。

(三)常识推理实验结果

在常识推理任务中,选取了 BIG-bench 中的日期理解和体育理解任务进行评估。实验结果显示,与 CoT 相比,CoD 生成的响应 token 数量显著减少,同时在准确率上也有出色表现,甚至在某些情况下超过了 CoT。例如,在 Claude 3.5 Sonnet 处理体育理解任务时,CoT 生成的响应平均有 189.4 个 token,而 CoD 仅为 14.3 个 token,减少了 92.4%,且 CoD 的准确率更高。这进一步证明了 CoD 在常识推理任务中的有效性和高效性。

(四)符号推理实验结果

对于符号推理任务,研究人员合成了一个包含 250 个示例的测试集,要求 LLMs 预测一系列抛硬币动作后硬币的状态。实验结果表明,标准提示下,GPT-4o 和 Claude 3.5 Sonnet 的准确率分别为 73.2% 和 85.2%。使用 CoT 和 CoD 提示后,两个模型都达到了 100% 的准确率。并且,CoD 再次展现出减少 token 数量的优势,与 CoT 相比,GPT-4o 的 token 数量减少了 68%,Claude 3.5 Sonnet 减少了 86%。

四、CoD Prompting 的优势与应用前景

(一)降低延迟和成本

CoD 最大的优势之一在于其显著降低了推理延迟和计算成本。通过精简推理步骤,减少 token 数量,模型在生成响应时所需的计算资源更少,推理速度更快。这对于许多对延迟敏感的实时应用场景,如智能客服、实时问答系统等至关重要。在这些场景中,快速的响应能够提升用户体验,而 CoD 的出现为实现这一目标提供了有力支持。同时,在大规模部署 LLMs 时,计算成本是一个重要的考虑因素,CoD 能够直接降低成本,使得模型的应用更加经济可行。

(二)保持推理深度与准确性

尽管 CoD 减少了推理步骤的表述,但并没有牺牲推理的深度和准确性。实验结果表明,在多个任务中,CoD 能够达到与 CoT 相当甚至更高的准确率。这说明 CoD 在去除冗余信息的同时,成功保留了关键的推理逻辑,使模型能够准确地解决问题。这种在简洁性和准确性之间的平衡,为 LLMs 的发展提供了新的思路,即有效的推理并不一定需要冗长的输出。

(三)为 LLM 设计与应用带来新启发

CoD 的设计理念为 LLM 的设计和部署提供了新的方向。在模型训练阶段,可以考虑使用紧凑推理数据进行训练,以引导模型学习更高效的推理方式。此外,CoD 可以与其他降低延迟的方法,如自适应并行推理或多轮验证相结合,进一步优化模型在不同应用领域的性能。在实际应用中,CoD 能够使 LLMs 更好地适应各种场景的需求,推动自然语言处理技术在更多领域的应用和发展。

CoD 提示策略作为一种创新的方法,为 LLMs 在复杂推理任务中的高效执行提供了新的解决方案。它通过模仿人类简洁的推理方式,在减少推理延迟和计算成本的同时,保持甚至提升了模型的准确性。然而,这一策略仍有进一步探索和优化的空间。未来的研究可以深入挖掘 CoD 与其他技术的融合方式,进一步提高模型的性能和适应性。

参考文献:
CoD论文

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号