问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

7B参数模型破解希尔伯特难题,AI数学推理能力获重大突破

创作时间:
作者:
@小白创作中心

7B参数模型破解希尔伯特难题,AI数学推理能力获重大突破

引用
CSDN
1.
https://m.blog.csdn.net/qq_27590277/article/details/146057005

近期,一篇发表在arXiv上的论文《SoS1: O1 and R1-Like Reasoning LLMs are Sum-of-Square Solvers》引起了广泛关注。研究团队通过为LLMs提供一套专门的推理框架,成功解决了判断多元多项式是否非负这一NP难问题,让AI在数学推理领域取得了突破性进展。

研究背景与方法

研究团队首先构建了一个包含1000个多项式的SoS-1K数据集,并设计了一个五步推理框架,帮助LLMs判断多项式是否为平方和(SoS)。这个框架就像一本“数学侦探手册”,指导AI进行系统性的推理:

  1. 检查最高次数:SoS多项式必须是“偶数控”,最高次数是奇数的一律淘汰!
  2. 非负性测试:让多项式去“健身房”测体能——如果有负数输出,直接出局!
  3. 特殊结构检测:比如二次多项式或某些四次多项式,天生就是SoS“贵族血统”。
  4. 平方形式验证:如果能拆成多个多项式的平方和,那就是如假包换的SoS!
  5. 矩阵分解大招:最后用矩阵分解和半正定检查,给多项式来个“全身CT扫描”!


不同推理指导下的模型表现对比(SoS Plain → SoS Reasoning)

实验结果

研究团队对多个LLMs进行了测试,包括DeepSeek-R1、GPT-4o、Qwen2.5系列等。实验结果令人振奋:

  • 没有攻略时,所有模型都在“闭眼猜”(准确率50%-60%,和抛硬币五五开)。
  • 有了攻略后,模型秒变“学霸”,最高准确率冲到81%!
  • 推理专用模型(如DeepSeek-R1)表现更稳,尤其是面对复杂问题时!


各模型在SoS-1K数据集上的准确率和响应时间

更令人惊喜的是,研究团队微调了一个7B参数的模型SoS-7B。这个“小模型”仅用4小时就击败了671B的DeepSeek-V3和GPT-4o-mini,计算时间还只有它们的1.8%和5%。这种“麻雀虽小,五脏全炸”的表现,充分展示了优化后模型的强大潜力。


模型推理长度与准确率的关系


不同测试集在五步推理框架下的准确率提升

结论

这项研究不仅让LLMs在数学推理领域“支棱起来”,还证明了“小模型也能有大作为”。未来,这种技术有望让AI成为数学家的得力助手,帮助人类攻克更多数学难题。


SoS-7B与其他模型的最终性能对比

这项研究不仅打开了AI解决数学难题的“新副本”,未来还可能让LLMs成为数学家的“科研助理”。说不定哪天,AI会拿着这篇论文说:“看,这是我帮人类搞定的第一个NP难问题!”

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号