问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

DeepSeek R1-Zero:AIME 2024数学竞赛中的AI明星

创作时间:
作者:
@小白创作中心

DeepSeek R1-Zero:AIME 2024数学竞赛中的AI明星

引用
网易
12
来源
1.
https://www.163.com/dy/article/JNQG6TF5051193U6.html
2.
https://blog.csdn.net/WiSirius/article/details/143193170
3.
https://finance.sina.com.cn/tech/roll/2025-01-30/doc-inehtzxw4472957.shtml
4.
https://www.sohu.com/a/820290509_121833160
5.
https://36kr.com/p/3152872354814728
6.
https://www.qbitai.com/2025/01/249027.html
7.
https://blog.csdn.net/qq_35812205/article/details/145383227
8.
https://finance.sina.com.cn/tech/internet/2025-01-21/doc-inefsutf8860181.shtml
9.
http://www.amcclub.org/article_456
10.
http://www.x-new.cn/e/wap/show.php?classid=122&id=48662&style=0&bclassid=0&cid=122&cpage=1
11.
https://www.cnblogs.com/theseventhson/p/18696408
12.
https://docs.feishu.cn/v/wiki/QR9xwE1tTiYwGXkNFjFcSgVFnGc/ab

在2024年美国数学邀请赛(AIME)中,一款名为DeepSeek R1-Zero的AI模型以71.0%的准确率震惊了整个科技界。这一成绩不仅远超其他AI模型,更接近了人类专家的水平,标志着AI在数学推理领域取得了重大突破。

01

突破性的成绩

AIME是美国数学竞赛系列中的高级别竞赛,位于AMC12之上,需要深厚的数学思维和解题能力。对于AI来说,这类数学竞赛题目极具挑战性,因为它们不仅要求精确的计算能力,更需要灵活的逻辑推理和问题解决能力。

在此次AIME 2024竞赛中,DeepSeek R1-Zero展现出了惊人的实力。其pass@1得分(即第一次尝试就给出正确答案的比例)从最初的15.6%提升至71.0%,在使用多数投票法后更是进一步提升至86.7%。这一成绩不仅远超纯LLM scaling的GPT-4o(5%),也超越了OpenAI的o1系统低计算量版本(15-20%)。

02

创新的技术原理

DeepSeek R1-Zero之所以能取得如此突破性的成绩,关键在于其独特的训练方式。该模型完全通过强化学习(Reinforcement Learning, RL)训练,未使用任何监督微调(Supervised Fine-Tuning, SFT)。

具体来说,DeepSeek R1-Zero基于DeepSeek-V3-Base模型,采用GRPO(Guided Reinforcement Policy Optimization)强化学习框架进行训练。在训练过程中,模型自然地展现出多种强大的推理行为,如自我验证、反思以及生成长推理链等能力。

然而,纯强化学习也带来了一些挑战,如可读性差和语言混杂等问题。为了解决这些问题,DeepSeek团队进一步开发了R1模型。该模型在强化学习之前加入了少量冷启动数据和多阶段训练管道,最终在推理任务上的表现与OpenAI-o1-1217相当。

03

实际应用与影响

DeepSeek R1-Zero的突破性进展不仅体现在竞赛成绩上,更在实际应用中展现出巨大潜力。其训练方式突破了传统AI模型对人类标注数据的依赖,开启了AI自我进化的新范式。

从经济角度来看,这一进展将推动AI领域的两个重大转变:

  1. 可以通过投入更多计算资源来获得更高的准确性和可靠性
  2. 训练成本正在转向推理成本,这将增加对计算能力的需求

这些变化将为AI的广泛应用铺平道路,特别是在那些需要高度可靠性和准确性的领域,如金融、医疗和科学研究等。

04

未来展望

DeepSeek R1-Zero的成功展示了纯强化学习方法在提升AI推理能力方面的巨大潜力。虽然目前这种方法还不能发现广泛共享的词汇表,但预计这将成为未来研究的重点。

ARC Prize团队认为,基于R1-Zero的结果,在假设的scaled up版本中,要在ARC-AGI-1上取得成功并不需要SFT。这一发现为进一步提升AI推理能力提供了新的研究方向。

DeepSeek R1-Zero在AIME 2024中的表现无疑是一个重要的里程碑。它不仅展示了AI在数学推理领域的巨大进步,更为未来AI系统的发展指明了方向。随着研究的深入,我们有理由相信,AI将在更多领域展现出令人惊叹的能力,为人类社会带来深远的影响。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号