问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

DeepSeekMath引爆AI圈：揭秘GRPO技术革命

创作时间:

作者:

@小白创作中心

DeepSeekMath引爆AI圈：揭秘GRPO技术革命

引用

CSDN

等

9

来源

1.

https://blog.csdn.net/liuchenbaidu/article/details/140847968

2.

https://wap.sciencenet.cn/blog-362400-1470708.html

3.

https://m.sohu.com/a/851653319_122004016

4.

https://blog.csdn.net/qq_27590277/article/details/138834674

5.

https://www.jianshu.com/p/541f26d1447b

6.

https://m.blog.csdn.net/qq_35812205/article/details/144945234

7.

https://blueberryml.com/grpo

8.

https://team.doubao.com/en/blog/%E6%9C%80%E9%AB%98%E6%8F%90%E5%8D%8720%E5%80%8D%E5%90%9E%E5%90%90%E9%87%8F-%E8%B1%86%E5%8C%85%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%9B%A2%E9%98%9F%E5%8F%91%E5%B8%83%E5%85%A8%E6%96%B0-rlhf-%E6%A1%86%E6%9E%B6-%E7%8E%B0%E5%B7%B2%E5%BC%80%E6%BA%90

9.

http://china.legalbusinessonline.com/features/2024-alb-china%E5%8D%81%E4%BA%94%E4%BD%B3%E6%96%B0%E7%A7%91%E6%8A%80%E5%85%AC%E5%8F%B8%E6%B3%95%E5%8A%A1%E5%9B%A2%E9%98%9F-zhen

DeepSeekMath在数学推理领域取得的重大突破，引发了AI圈的广泛关注。其核心创新之一就是Group Relative Policy Optimization（GRPO）算法，这一改进版的PPO算法通过引入群体相对评估机制，不仅提高了模型训练效率，还显著增强了数学推理能力。

01

GRPO：革新性的强化学习算法

GRPO的核心思想是通过组内相对奖励来优化策略，避免了传统方法中对价值网络的需求。具体来说，GRPO的工作流程分为以下几个步骤：

采样：对于每个问题，从当前策略中生成一组输出。
评分：对这些输出进行评分，评估它们的质量。
相对优势计算：通过比较这组输出的得分，确定每个输出的相对优势。优势分数的计算公式为：
[
\text{Advantage} = \frac{\text{Current score} - \text{Group mean}}{\text{Group std dev}}
]
例如，对于一个数学问题生成的4个答案，得分分别为90、80、70、60（平均分为75），那么90分的答案将获得一个正的优势分数。
策略调整：基于这些相对优势，更新策略模型，鼓励高质量输出，抑制低质量输出。

这种机制避免了传统方法中对价值网络的需求，显著减少了内存消耗和计算资源，同时保持了优化的有效性。

02

DeepSeekMath中的应用与效果

在DeepSeekMath中，GRPO算法得到了充分的应用和验证。整个训练过程分为多个阶段：

基础模型训练：使用8.1T token的高质量多语言语料库进行预训练，特别注重中文数据的质量和数量。
监督微调（SFT）：基于150万个涵盖数学、代码、写作、推理和安全等领域的对话数据进行微调。
强化学习阶段：采用GRPO方法进一步优化模型，确保其与人类偏好保持一致。

特别值得一提的是R1-zero阶段的成果。通过在AIME2024测试集上的训练，R1-zero模型的得分从15.6%飙升至71.0%，表现出与OpenAI o1-0912相当的性能。尽管初期可能存在可读性差和语言混杂的问题，但通过后续的多阶段训练策略，这些问题都得到了有效解决。

03

技术优势与未来展望

GRPO的主要优势在于：

简化训练流程：无需训练额外的批评模型，降低了整体复杂度。
降低成本：减少计算资源需求，特别适合大规模语言模型的优化。
高效优化：通过直接对比输出质量，快速提升模型性能。

这一技术不仅在数学推理领域展现出强大的实力，还具有广泛的应用前景。例如，在教育领域，GRPO可以用于优化智能辅导系统，帮助学生更有效地学习和解决问题。在代码生成领域，GRPO可以帮助模型生成更高质量的代码解决方案。

DeepSeekMath的成功证明了GRPO在复杂任务中的巨大潜力。随着这一技术的不断发展和完善，我们有理由相信，它将在更多领域带来突破性的进展，推动AI技术向更智能化、更人性化的方向发展。

热门推荐

一季度28省份GDP增速超全国平均水平，消费贡献率达73.7%

一季度28省份GDP增速超全国平均水平，消费贡献率达73.7%

友情破裂如何修复？心理学专家给出这些建议

友情破裂如何修复？心理学专家给出这些建议

九旬常沙娜举办从艺八十周年展，敦煌艺术融入国家建筑

九旬常沙娜举办从艺八十周年展，敦煌艺术融入国家建筑

西北“花儿”：多民族共唱的非遗民歌

西北“花儿”：多民族共唱的非遗民歌

青海启动冬春冰雪旅游季，融合运动文化打造文旅新名片

青海启动冬春冰雪旅游季，融合运动文化打造文旅新名片

零跑C11：冬季续航300km，配置拉满，完胜宋PLUS DM-i

零跑C11：冬季续航300km，配置拉满，完胜宋PLUS DM-i

小学生也能秒懂的百分比计算秘籍

小学生也能秒懂的百分比计算秘籍

弗格末节31分助辽宁大胜四川，送给对手五连败

弗格末节31分助辽宁大胜四川，送给对手五连败

CBA三强捉对厮杀：广厦主场不败金身能否延续

CBA三强捉对厮杀：广厦主场不败金身能否延续

海上丝路起点钦州：古城文化与火山海岛的双重魅力

海上丝路起点钦州：古城文化与火山海岛的双重魅力

糖尿病患者少吃稀饭：半流质食物易致血糖波动

糖尿病患者少吃稀饭：半流质食物易致血糖波动

端午节教你自制艾绒：从采集到成品的完整指南

端午节教你自制艾绒：从采集到成品的完整指南

威尔斯列第四，琼斯登顶CBA五大小外援榜单

威尔斯列第四，琼斯登顶CBA五大小外援榜单

CBA常规赛：辽宁末节发力104-101险胜北控，弗格砍41分

CBA常规赛：辽宁末节发力104-101险胜北控，弗格砍41分

39米高蓝冰瀑现身少华山，距西安仅1.5小时车程

39米高蓝冰瀑现身少华山，距西安仅1.5小时车程

西安少华山冰瀑布进入最佳观赏期，39.9元起游，景区发布安全观赏提示

西安少华山冰瀑布进入最佳观赏期，39.9元起游，景区发布安全观赏提示

软件测试工程师成长指南：六大阶段完整进阶路线

软件测试工程师成长指南：六大阶段完整进阶路线

家庭教育：如何培养孩子的三观正

家庭教育：如何培养孩子的三观正

三观正的人是如何做到社交无敌？

三观正的人是如何做到社交无敌？

心学问推荐：培养三观正的心理健康策略

心学问推荐：培养三观正的心理健康策略

阳明心学：三观正的哲学基石

阳明心学：三观正的哲学基石

三观正的家庭教育，孩子赢在起点

三观正的家庭教育，孩子赢在起点

20-400目：振动脱水筛筛网目数选择指南

20-400目：振动脱水筛筛网目数选择指南

一文读懂筛网目数：篮式过滤器的核心参数解析

一文读懂筛网目数：篮式过滤器的核心参数解析

平面回转筛：高效筛分、环保节能的工业新选择

平面回转筛：高效筛分、环保节能的工业新选择

军训：从军营到职场的素养桥梁

军训：从军营到职场的素养桥梁

大学军训：磨砺意志、学习技能、培养国防意识

大学军训：磨砺意志、学习技能、培养国防意识

中国海军首次大规模海战，吴齐黄海海战始末

中国海军首次大规模海战，吴齐黄海海战始末

桐柏十大景点全览：淮河之源、红叶景区各具特色

桐柏十大景点全览：淮河之源、红叶景区各具特色

中医治疗头痛：经络调理与生活调适的综合方案

中医治疗头痛：经络调理与生活调适的综合方案

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号