让AI少说废话:如何提问让大模型更高效
让AI少说废话:如何提问让大模型更高效
在使用AI大模型时,你是否遇到过模型回答过于冗长、浪费时间和资源的问题?本文将介绍一种名为Chain of Draft (CoD)的新方法,通过限制每步推理的词语数量,让AI像人类一样"少写多想",在保持准确率的同时大幅减少token使用量。
AI为什么这么"话痨"?
现代大语言模型(LLM)普遍存在一个问题:生成内容时过于冗长。尤其是在解决复杂问题时,它们倾向于详细解释每一步思考过程,就像一个过分热情的数学老师,非要把每个步骤都写得清清楚楚。这种现象主要源于训练数据的影响,模型学习了人类详细解释问题的方式;同时广泛使用的提示词方法也鼓励模型详细展示推理过程。
以QWQ为代表的小模型尤其如此,参数量不够意味着更需要用过度思考来弥补。因此我们在使用QWQ模型时长长需要忍受无比缓慢的思考过程。
虽然详细解释有助于提高准确性,但每多生成一个token,都意味着更多的计算资源和更高的API调用成本。对于需要频繁使用AI的企业和个人来说,这是一笔不小的开销。
人类思考真的需要"长篇大论"吗?
想象一下,当你计算"128 + 37"时,你的大脑是这样工作的吗?
我首先看到128和37两个数字。
我需要将它们相加。
我先计算个位:8+7=15,所以个位是5,进位是1。
然后计算十位:2+3+1(进位)=6,所以十位是6。
最后计算百位:1+0=1,所以百位是1。
因此,最终结果是165。
显然不是!人类思考往往简洁高效,可能只是:
8+7=15,进1
2+3+1=6
1
答案:165
这就是Chain of Draft (CoD)的灵感来源——让AI像人类一样"少写多想"。
Chain of Draft:让AI学会"简洁笔记"
Zoom通信公司的研究团队最近提出了Chain of Draft方法,核心思想非常简单:限制AI在每一步推理中使用的词语数量。
具体做法是在提示语中加入类似这样的指导:
"请用最少的词语逐步推理,每个步骤限制在5个词以内。"
这种方法看似简单,效果却出奇地好。在多项实验中,CoD不仅保持了与传统方法相当的准确率,还将token使用量减少了约80%!
对比一下两种方法解决同一个问题的差异:
问题:小明有20本书,借给朋友3本,又买了5本,现在有多少本?
Chain-of-Thought (传统方法):
- 小明一开始有20本书
- 他借给朋友3本书,所以剩下20-3=17本书
- 然后他又买了5本新书,所以现在有17+5=22本书
- 因此,小明现在总共有22本书
Chain of Draft (新方法):
- 20-3=17
- 17+5=22
答案:22本
两种方法得到相同的答案,但CoD使用的token数量明显更少,同时保持了推理的清晰性。
为什么CoD能够有效?
CoD之所以能在不牺牲准确性的前提下大幅减少token使用量,主要有几个关键原因。首先,它显著提升了信息密度,强制模型只保留最关键的信息,去除冗余描述。其次,简洁表达减少了噪声,过多的解释反而可能引入错误或混淆。此外,精简的表达方式迫使模型聚焦于问题的核心逻辑,直击问题本质。
研究表明,在多数情况下,CoD不仅没有降低准确率,有时甚至提高了模型的表现。这可能是因为简洁的表达减少了模型在推理过程中的干扰。我的体验是,CoD模型并没有明显的降低回答准确率。但是明显提高了响应速度。
如何在实践中应用CoD?
想要让你的AI助手变得更加高效,可以尝试以下提示模板:
你是一个擅长精简推理的AI助手。请用最少的词语逐步推理,每个步骤限制在5个词以内。最终答案用####标记。
例如:
问题:小明有20本书,借给朋友3本,又买了5本,现在有多少本?
回答:
步骤1:20-3=17
步骤2:17+5=22
22本
现在,请解答以下问题:
[你的问题]
这种提示方式特别适合数学计算问题、逻辑推理任务、多步骤决策过程,以及需要频繁API调用的应用场景。通过引导模型生成简洁的中间步骤,可以大幅降低token消耗,提高响应速度。
CoD的局限性
虽然CoD在推理任务上表现很好,但它存在明显的局限。没有示例的情况下,模型可能不理解如何生成简洁的草稿,导致性能下降。参数量较小的模型可能难以在保证信息完整性的同时生成足够简洁的草稿,因此CoD对小模型的支持有限。此外,极简的中间步骤可能降低可解释性,我们可能难以理解模型的推理过程。对于需要详细解释或情感表达的任务,如文学创作不适合使用CoD方法。