问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

DeepSeekMath引爆AI圈:揭秘GRPO技术革命

创作时间:
作者:
@小白创作中心

DeepSeekMath引爆AI圈:揭秘GRPO技术革命

引用
CSDN
9
来源
1.
https://blog.csdn.net/liuchenbaidu/article/details/140847968
2.
https://wap.sciencenet.cn/blog-362400-1470708.html
3.
https://m.sohu.com/a/851653319_122004016
4.
https://blog.csdn.net/qq_27590277/article/details/138834674
5.
https://www.jianshu.com/p/541f26d1447b
6.
https://m.blog.csdn.net/qq_35812205/article/details/144945234
7.
https://blueberryml.com/grpo
8.
https://team.doubao.com/en/blog/%E6%9C%80%E9%AB%98%E6%8F%90%E5%8D%8720%E5%80%8D%E5%90%9E%E5%90%90%E9%87%8F-%E8%B1%86%E5%8C%85%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%9B%A2%E9%98%9F%E5%8F%91%E5%B8%83%E5%85%A8%E6%96%B0-rlhf-%E6%A1%86%E6%9E%B6-%E7%8E%B0%E5%B7%B2%E5%BC%80%E6%BA%90
9.
http://china.legalbusinessonline.com/features/2024-alb-china%E5%8D%81%E4%BA%94%E4%BD%B3%E6%96%B0%E7%A7%91%E6%8A%80%E5%85%AC%E5%8F%B8%E6%B3%95%E5%8A%A1%E5%9B%A2%E9%98%9F-zhen

DeepSeekMath在数学推理领域取得的重大突破,引发了AI圈的广泛关注。其核心创新之一就是Group Relative Policy Optimization(GRPO)算法,这一改进版的PPO算法通过引入群体相对评估机制,不仅提高了模型训练效率,还显著增强了数学推理能力。

01

GRPO:革新性的强化学习算法

GRPO的核心思想是通过组内相对奖励来优化策略,避免了传统方法中对价值网络的需求。具体来说,GRPO的工作流程分为以下几个步骤:

  1. 采样:对于每个问题,从当前策略中生成一组输出。
  2. 评分:对这些输出进行评分,评估它们的质量。
  3. 相对优势计算:通过比较这组输出的得分,确定每个输出的相对优势。优势分数的计算公式为:
    [
    \text{Advantage} = \frac{\text{Current score} - \text{Group mean}}{\text{Group std dev}}
    ]
    例如,对于一个数学问题生成的4个答案,得分分别为90、80、70、60(平均分为75),那么90分的答案将获得一个正的优势分数。
  4. 策略调整:基于这些相对优势,更新策略模型,鼓励高质量输出,抑制低质量输出。

这种机制避免了传统方法中对价值网络的需求,显著减少了内存消耗和计算资源,同时保持了优化的有效性。

02

DeepSeekMath中的应用与效果

在DeepSeekMath中,GRPO算法得到了充分的应用和验证。整个训练过程分为多个阶段:

  1. 基础模型训练:使用8.1T token的高质量多语言语料库进行预训练,特别注重中文数据的质量和数量。
  2. 监督微调(SFT):基于150万个涵盖数学、代码、写作、推理和安全等领域的对话数据进行微调。
  3. 强化学习阶段:采用GRPO方法进一步优化模型,确保其与人类偏好保持一致。

特别值得一提的是R1-zero阶段的成果。通过在AIME2024测试集上的训练,R1-zero模型的得分从15.6%飙升至71.0%,表现出与OpenAI o1-0912相当的性能。尽管初期可能存在可读性差和语言混杂的问题,但通过后续的多阶段训练策略,这些问题都得到了有效解决。

03

技术优势与未来展望

GRPO的主要优势在于:

  • 简化训练流程:无需训练额外的批评模型,降低了整体复杂度。
  • 降低成本:减少计算资源需求,特别适合大规模语言模型的优化。
  • 高效优化:通过直接对比输出质量,快速提升模型性能。

这一技术不仅在数学推理领域展现出强大的实力,还具有广泛的应用前景。例如,在教育领域,GRPO可以用于优化智能辅导系统,帮助学生更有效地学习和解决问题。在代码生成领域,GRPO可以帮助模型生成更高质量的代码解决方案。

DeepSeekMath的成功证明了GRPO在复杂任务中的巨大潜力。随着这一技术的不断发展和完善,我们有理由相信,它将在更多领域带来突破性的进展,推动AI技术向更智能化、更人性化的方向发展。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号