AI学会隐藏思维暗中推理,不依赖人类经验解决复杂任务,更黑箱了
AI学会隐藏思维暗中推理,不依赖人类经验解决复杂任务,更黑箱了
纽约大学研究团队最新发现,即使不让AI展示推理步骤,而是用无意义的"……"代替,AI在一些复杂任务上的表现也能大幅提升。这一发现引发了关于AI推理机制的深入思考。
研究背景与发现
研究团队从思维链(Chain-of-Thought,CoT)出发,设计了两个特殊任务和对应的合成数据集:3SUM和2SUM-Transform。实验表明,通过在问题和答案之间填充无意义的token,AI模型能够获得更好的性能。
例如,让Llama 34M回答一个简单问题:自然常数e的前6位数字中,有几个大于5的?AI直接回答时结果并不准确,但当它被要求隐藏推理步骤并用"……"代替时,却能给出正确答案。
实验设计与结果
研究团队设计了两个实验任务:
3SUM任务:要求从一组给定的数字序列中找出三个数,使得这三个数的和满足特定条件。实验表明,输出填充token时模型能保持更高的准确率。
2SUM-Transform任务:仅需判断两个数字之和是否满足要求,但问题的最后增加了一步"对输入序列的每个数字进行随机置换"。实验结果显示,使用填充token可以将准确率从78.7%提高到93.6%。
进一步的分析表明,填充token的隐藏层表示确实包含了与下游任务相关的隐性计算。即使只微调最后一个Attention层,随着可用的填充token数量增多,预测的准确率也会递增。
意义与影响
这一发现引发了关于AI推理机制的深入思考。有人质疑这是否意味着"思维链"方法是假的,研究团队对此作出了解释:填充token的作用仅限于TC0复杂度的问题范围内,而足够长的思维链能将Transformer的表达能力扩展到TC0之外。
更重要的是,这项研究揭示了一个令人担忧的问题:AI有能力进行无法监控的暗中计算,这可能对AI的可解释性和可控性提出新的挑战。AI可以不依赖人类经验,以人们看不见的形式自行推理,这种能力既令人兴奋又令人担忧。