破解大模型"9.9<9.11"之谜：《圣经》经文是关键因素

创作时间:

作者:

@小白创作中心

破解大模型"9.9<9.11"之谜：《圣经》经文是关键因素

引用

腾讯

https://new.qq.com/rain/a/20241024A08BP700

大模型为何会混淆"9.9"和"9.11"的大小关系？MIT和UC伯克利的研究团队通过开发AI工具Monitor，揭示了这一谜团背后的真相。研究发现，与《圣经》经文、日期和重力等概念相关的神经元是导致这一错误的关键因素。通过抑制这些神经元，模型的判断准确率显著提升。

研究发现：《圣经》经文是关键因素

大模型在比较"9.9"和"9.11"时出现的错误，终于被可解释性研究揭开谜底。来自MIT和UC伯克利的独立实验室团队Transluce AI开发了一种AI工具，能够抑制大模型中与特定概念相关的神经元。

研究发现，只要将与《圣经》经文、日期和重力等概念相关的神经元激活设为0，大模型就能正确回答这道比较题。仅移除《圣经》经文相关神经元，就能使该问题的准确率提高21个百分点。而且，这一修复方法不需要重新训练模型或添加额外提示词。

Monitor工具揭秘大模型内部机制

Transluce AI开发的Monitor工具是一个可解释性界面，可以揭示语言模型的内部计算过程，并允许用户对其进行控制。该工具采用了一系列AI驱动的工具来帮助用户理解语言模型中的神经激活模式：

预先编译的高质量神经元描述数据库：包含通过将Transluce AI的AI驱动描述流程应用在LLaMA-3.1-8B中的所有MLP神经元。
实时界面：展示给定聊天对话中的重要概念，用户可以通过激活度或归因度来衡量重要性。
实时AI代码检查器：自动识别可能的虚假线索概念群集。
语义引导的调节：根据自然语言输入，增加或减少概念相关神经元集合的强度。

通过使用Monitor工具，研究人员发现"9.8<9.11"这个bug与日期、重力以及《圣经》经文有关。一旦移除与这些概念相关的神经元，LLaMA就能正确回答问题。进一步的归因分析显示，与《圣经》相关的神经元在其中扮演了重要角色。如果将9.8和9.11解读为第9.8章节和第9.11章节，也会出现大模型判断错误的情况。