问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

DeepSeek R1-Zero：AIME 2024数学竞赛中的AI明星

创作时间:

作者:

@小白创作中心

DeepSeek R1-Zero：AIME 2024数学竞赛中的AI明星

引用

网易

等

12

来源

1.

https://www.163.com/dy/article/JNQG6TF5051193U6.html

2.

https://blog.csdn.net/WiSirius/article/details/143193170

3.

https://finance.sina.com.cn/tech/roll/2025-01-30/doc-inehtzxw4472957.shtml

4.

https://www.sohu.com/a/820290509_121833160

5.

https://36kr.com/p/3152872354814728

6.

https://www.qbitai.com/2025/01/249027.html

7.

https://blog.csdn.net/qq_35812205/article/details/145383227

8.

https://finance.sina.com.cn/tech/internet/2025-01-21/doc-inefsutf8860181.shtml

9.

http://www.amcclub.org/article_456

10.

http://www.x-new.cn/e/wap/show.php?classid=122&id=48662&style=0&bclassid=0&cid=122&cpage=1

11.

https://www.cnblogs.com/theseventhson/p/18696408

12.

https://docs.feishu.cn/v/wiki/QR9xwE1tTiYwGXkNFjFcSgVFnGc/ab

在2024年美国数学邀请赛（AIME）中，一款名为DeepSeek R1-Zero的AI模型以71.0%的准确率震惊了整个科技界。这一成绩不仅远超其他AI模型，更接近了人类专家的水平，标志着AI在数学推理领域取得了重大突破。

01

突破性的成绩

AIME是美国数学竞赛系列中的高级别竞赛，位于AMC12之上，需要深厚的数学思维和解题能力。对于AI来说，这类数学竞赛题目极具挑战性，因为它们不仅要求精确的计算能力，更需要灵活的逻辑推理和问题解决能力。

在此次AIME 2024竞赛中，DeepSeek R1-Zero展现出了惊人的实力。其pass@1得分（即第一次尝试就给出正确答案的比例）从最初的15.6%提升至71.0%，在使用多数投票法后更是进一步提升至86.7%。这一成绩不仅远超纯LLM scaling的GPT-4o（5%），也超越了OpenAI的o1系统低计算量版本（15-20%）。

02

创新的技术原理

DeepSeek R1-Zero之所以能取得如此突破性的成绩，关键在于其独特的训练方式。该模型完全通过强化学习（Reinforcement Learning, RL）训练，未使用任何监督微调（Supervised Fine-Tuning, SFT）。

具体来说，DeepSeek R1-Zero基于DeepSeek-V3-Base模型，采用GRPO（Guided Reinforcement Policy Optimization）强化学习框架进行训练。在训练过程中，模型自然地展现出多种强大的推理行为，如自我验证、反思以及生成长推理链等能力。

然而，纯强化学习也带来了一些挑战，如可读性差和语言混杂等问题。为了解决这些问题，DeepSeek团队进一步开发了R1模型。该模型在强化学习之前加入了少量冷启动数据和多阶段训练管道，最终在推理任务上的表现与OpenAI-o1-1217相当。

03

实际应用与影响

DeepSeek R1-Zero的突破性进展不仅体现在竞赛成绩上，更在实际应用中展现出巨大潜力。其训练方式突破了传统AI模型对人类标注数据的依赖，开启了AI自我进化的新范式。

从经济角度来看，这一进展将推动AI领域的两个重大转变：

可以通过投入更多计算资源来获得更高的准确性和可靠性
训练成本正在转向推理成本，这将增加对计算能力的需求

这些变化将为AI的广泛应用铺平道路，特别是在那些需要高度可靠性和准确性的领域，如金融、医疗和科学研究等。

04

未来展望

DeepSeek R1-Zero的成功展示了纯强化学习方法在提升AI推理能力方面的巨大潜力。虽然目前这种方法还不能发现广泛共享的词汇表，但预计这将成为未来研究的重点。

ARC Prize团队认为，基于R1-Zero的结果，在假设的scaled up版本中，要在ARC-AGI-1上取得成功并不需要SFT。这一发现为进一步提升AI推理能力提供了新的研究方向。

DeepSeek R1-Zero在AIME 2024中的表现无疑是一个重要的里程碑。它不仅展示了AI在数学推理领域的巨大进步，更为未来AI系统的发展指明了方向。随着研究的深入，我们有理由相信，AI将在更多领域展现出令人惊叹的能力，为人类社会带来深远的影响。

热门推荐

心理咨询师教你改善人际关系

心理咨询师教你改善人际关系

社交礼仪助力大学生化解宿舍矛盾

社交礼仪助力大学生化解宿舍矛盾

母乳喂养：宝宝健康的“黄金标准”

母乳喂养：宝宝健康的“黄金标准”

JAMA子刊：羟氯喹在系统性红斑狼疮患者中的心血管事件保护作用

JAMA子刊：羟氯喹在系统性红斑狼疮患者中的心血管事件保护作用

常州旅游必去五处：淹城遗址展现春秋文明，梳篦博物馆传承千年工艺

常州旅游必去五处：淹城遗址展现春秋文明，梳篦博物馆传承千年工艺

加拿大青年斯科特的李白足迹之旅

加拿大青年斯科特的李白足迹之旅

李白的早年游历：从蜀中到江南，诗仙如何炼成？

李白的早年游历：从蜀中到江南，诗仙如何炼成？

李白笔下的铜官山，千年后依旧迷人

李白笔下的铜官山，千年后依旧迷人

故宫博物院镇馆之宝：李白《上阳台帖》

故宫博物院镇馆之宝：李白《上阳台帖》

春运期间常州地铁延时至22:30，16站提供行李寄存

春运期间常州地铁延时至22:30，16站提供行李寄存

羽绒服蓬松洗涤剂怎么用？三种实用方法和四大注意事项

羽绒服蓬松洗涤剂怎么用？三种实用方法和四大注意事项

青州博物馆的“龙兴寺造像”揭秘

青州博物馆的“龙兴寺造像”揭秘

青州博物馆：一座县级博物馆的“网红”之路

青州博物馆：一座县级博物馆的“网红”之路

青州博物馆的“青州微笑”：400尊佛像为何能刷爆朋友圈？

青州博物馆的“青州微笑”：400尊佛像为何能刷爆朋友圈？

青州博物馆新馆：汉唐风建筑里的数字化体验

青州博物馆新馆：汉唐风建筑里的数字化体验

AI黑科技如何助力《复仇者联盟》打造视觉盛宴？

AI黑科技如何助力《复仇者联盟》打造视觉盛宴？

AIGC重塑经典：AI电影的前世今生

AIGC重塑经典：AI电影的前世今生

AI技术重塑电影制作，你准备好迎接变革了吗？

AI技术重塑电影制作，你准备好迎接变革了吗？

14种键盘符号+17个快捷键：提升电脑操作效率

14种键盘符号+17个快捷键：提升电脑操作效率

键盘技术全解：三大类型、四种接口及工作原理

键盘技术全解：三大类型、四种接口及工作原理

22个细节教你识别和远离生活中的危险化学品

22个细节教你识别和远离生活中的危险化学品

深呼吸、听音乐、散步，三招赶走坏情绪

深呼吸、听音乐、散步，三招赶走坏情绪

打麻将：社交神器对抗情绪低落

打麻将：社交神器对抗情绪低落

情绪低落？试试情绪觉察法

情绪低落？试试情绪觉察法

工作压力让你情绪低落？这里有解药！

工作压力让你情绪低落？这里有解药！

羊肉：从食材到药膳，古代饮食文化的瑰宝

羊肉：从食材到药膳，古代饮食文化的瑰宝

1500种香肠配经典酸菜：解码德国餐桌上的文化密码

1500种香肠配经典酸菜：解码德国餐桌上的文化密码

德国有1500种香肠：从古罗马传承至今的美食文化

德国有1500种香肠：从古罗马传承至今的美食文化

新疆阿勒泰大尾羊：冬日滋补首选

新疆阿勒泰大尾羊：冬日滋补首选

嫦娥六号1:1模型首次亮相公众

嫦娥六号1:1模型首次亮相公众

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号