问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

AI数学推理遭遇重大挑战:FrontierMath让顶尖模型正确率不足2%

创作时间:
作者:
@小白创作中心

AI数学推理遭遇重大挑战:FrontierMath让顶尖模型正确率不足2%

引用
36氪
10
来源
1.
https://36kr.com/p/2819694504937984
2.
https://blog.csdn.net/2301_76168381/article/details/143714315
3.
https://www.qbitai.com/2024/11/217214.html
4.
https://www.sohu.com/a/827031361_121124729
5.
https://m.21jingji.com/article/20240617/herald/6fab53c77b800e4cd546428c0f53effe.html
6.
https://new.qq.com/rain/a/20241111A01E3P00
7.
https://36kr.com/p/3031615325857281
8.
https://www.thepaper.cn/newsDetail_forward_29975444
9.
https://hub.baai.ac.cn/view/41104
10.
https://www.showapi.com/news/article/678daece4ddd79f11a24de96

近日,由Epoch AI研究机构联合60多位顶尖数学家推出的全新数学基准测试FrontierMath,给当前炙手可热的人工智能模型们上了一堂“ humbling lesson ”。在这一被称为“数学奥林匹克”的测试中,即使是目前最先进的AI模型,也未能突破2%的正确率。

01

Epoch AI:一群“数据预言家”的新作

Epoch AI是一家成立于2022年4月的非营利研究机构,虽然只有13名员工,但其研究工作却具有广泛影响。该机构致力于调查人工智能的历史趋势,并帮助预测其未来发展。此前,Epoch AI就曾预测大型语言模型(LLM)将在2028年耗尽互联网上的所有文本数据,这一预测引起了广泛关注。

此次,Epoch AI联合包括菲尔兹奖得主陶哲轩在内的60多位顶尖数学家,推出了专门针对AI的数学推理能力测试——FrontierMath。这一基准测试的目的是评估AI在高级数学推理方面的真实能力,而不是仅仅依靠记忆已有的数学问题来获得高分。

02

数学界的“哥德巴赫猜想”:数百道原创难题

FrontierMath包含了数百道原创的、高难度的数学问题,涵盖了从数论到代数几何等多个现代数学的主要分支。这些题目设计遵循三个关键原则:

  1. 所有问题都是新的且未发表的,以防止数据污染;
  2. 解决方案是自动可验证的,从而实现高效的评估;
  3. 问题是“防猜测”的,在没有正确推理的情况下解决的可能性很低。

为了进一步确保题目的原创性和安全性,Epoch AI采取了多项措施。比如,所有提交都通过安全、加密的渠道进行,采用加密通信平台与投稿人协调,并要求对在线存储的任何书面材料进行加密。此外,还通过抄袭检测工具Quetext和Copyscape对问题进行测试。

03

AI的“数学噩梦”:不到2%的正确率

在FrontierMath的测试中,包括o1、Claude 3.5 Sonnet、GPT-4o和Gemini 1.5 Pro在内的多个顶尖AI模型都遭遇了前所未有的挑战。即使在延长思考时间(10,000个token)、提供Python访问权限以及允许运行实验的条件下,这些模型的解题成功率仍然低于2%。

这一结果与AI模型在传统数学基准测试中的表现形成鲜明对比。在GSM8K和MATH等现有基准测试中,AI模型往往能够达到90%以上的正确率。Epoch AI指出,这种差异主要是由于数据污染问题——AI模型通过记忆大量已有的数学问题来提高分数,而在FrontierMath中,所有题目都是全新的、未公开的,AI无法通过“死记硬背”来应对。

04

专家评价:这是一场“公平的较量”

为了进一步验证FrontierMath的难度,Epoch AI还特意采访了多位数学领域的权威专家。包括菲尔兹奖得主陶哲轩、蒂莫西·高尔斯、理查德·博赫兹,以及国际数学奥林匹克竞赛教练陈谊廷在内的数学家们一致认为,这些题目非常具有挑战性,需要深厚的专业知识和强大的推理能力才能解决。

特斯拉AI负责人Andrej Karpathy也对这一基准测试表示赞赏。他认为,FrontierMath体现了莫拉维克悖论——对人类来说容易的事情,对计算机来说可能很难,反之亦然。这一基准测试揭示了AI在处理需要长时间、连贯推理的问题时的局限性。

05

未来展望:AI数学推理能力何去何从?

Epoch AI计划从四个方面持续推进这一研究:

  1. 定期评估领先的大模型,观察其随时间推移和规模扩大而提高的情况;
  2. 保持难度的同时,向FrontierMath添加更多问题;
  3. 在未来几个月内发布更多代表性问题,供研究讨论;
  4. 扩大专家审查、增加错误数量和改进同行评审流程来加强质量控制。

这一研究不仅揭示了当前AI模型在数学推理领域的局限性,也为未来AI的发展指明了方向。正如陶哲轩所期待的那样,未来的AI系统如果能在这种基准测试中达到较高水平,将对数学研究产生重要影响。他梦想中的系统可以与LEAN(微软研究院推出的一款定理证明器)连接,让数学家成为编辑和顾问,处理真正困难的部分,而其余部分则实现自动化且可证明正确。

这一研究也引发了对AI评估方式的深入思考。正如Karpathy所言,如何为那些看似“容易”但实际很难的任务创建评估,是一个值得深入研究的课题。这不仅限于数学领域,也适用于其他需要复杂推理和创造性思维的任务。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号