MIT & DeepMind联手揭秘：大语言模型自我学习新突破！

创作时间:

作者:

@小白创作中心

MIT & DeepMind联手揭秘：大语言模型自我学习新突破！

引用

36氪

等

来源

https://www.36kr.com/p/3160462380489216

https://new.qq.com/rain/a/20240927A03XOV00

https://blog.csdn.net/weixin_44292902/article/details/140639974

https://blog.csdn.net/Python_cocola/article/details/144916944

https://www.sohu.com/a/812310308_121124379

https://finance.sina.com.cn/tech/roll/2024-09-21/doc-incpwzpp0138956.shtml

https://www.xinfinite.net/t/topic/6587

https://developer.aliyun.com/article/1630953

https://www.yicaiai.com/news/article/673adcf64ddd79f11a0402a4

近日，MIT和DeepMind在大语言模型（LLM）自我学习能力方面取得重要突破。MIT的研究从理论上证明了LLM通过上下文学习实现有效自我纠正的可能性，而DeepMind则通过SCoRe方法显著提升了LLM的自我纠正性能。这些突破不仅为理解LLM的能力提供了新的视角，也为未来智能交流和实际应用奠定了基础。

MIT研究：LLM自我纠正能力的理论突破

MIT的研究聚焦于LLM的自我纠正能力，通过理论分析和实验验证，研究团队发现LLM能够在特定条件下实现有效的自我纠正。这项研究的重要贡献在于：

理论证明：研究首次从理论上证明了LLM通过上下文学习（in-context learning）实现自我纠正的可能性。这为理解LLM的推理机制提供了新的视角。
实验验证：研究团队设计了一系列实验，通过控制变量和对比分析，验证了LLM在不同条件下的自我纠正表现。实验结果表明，LLM在某些任务上确实能够通过自我反思和修正提高准确性。
影响因素分析：研究还探讨了影响LLM自我纠正能力的关键因素，包括模型规模、训练数据质量、任务类型等。这些发现为进一步优化LLM性能提供了重要参考。

DeepMind SCoRe：自我纠正性能大幅提升

DeepMind提出的SCoRe（Self-Correction via Reinforcement Learning）方法通过在线多轮强化学习，显著提升了LLM的自我纠正能力。该方法的核心创新在于：

完全自生成数据：SCoRe方法完全使用模型自生成的数据进行训练，无需任何外部输入或监督信号。这种端到端的训练方式大大提高了模型的自主学习能力。
多轮在线强化学习：通过多轮在线强化学习，模型能够在迭代过程中不断优化自我纠正策略。这种方法避免了传统有监督微调中训练数据与模型回复分布不匹配的问题。
性能显著提升：实验结果显示，SCoRe方法在MATH和HumanEval基准测试中分别将自我修正性能提高了15.6%和9.1%。在Gemini 1.0 Pro和1.5 Flash模型上的自我纠正性能最高。

突破的意义与未来展望

MIT和DeepMind的这些研究突破具有重要意义：

技术进步：这些研究推动了LLM向更智能、更自主的方向发展，为实现真正具备人类水平推理能力的AI系统奠定了基础。
应用前景：自我学习和自我纠正能力的提升将使LLM在更多领域发挥重要作用，如金融、科研、政策制定等。特别是在处理未来事件预测这类对LLM应用至关重要的任务时，这些突破将带来显著改进。
研究方向：这些发现为进一步提升LLM的预测能力和推理能力开辟了新的研究方向，特别是在无需人工标注数据就能提升LLM性能的领域。

随着LLM在各行各业中的广泛应用，这些突破有望在多个领域发挥重要作用。MIT和DeepMind的研究不仅展示了LLM自我学习能力的巨大潜力，也为未来AI系统的发展指明了方向。

热门推荐

夷陵之战中陆逊的计谋与结局