问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

李飞飞团队50美元训练出DeepSeek R1?低成本AI训练全解析

创作时间:
作者:
@小白创作中心

李飞飞团队50美元训练出DeepSeek R1?低成本AI训练全解析

引用
CSDN
1.
https://deepseek.csdn.net/67ab1ca179aaf67875cb973d.html

近日,有新闻报道李飞飞团队仅用50美元就训练出了DeepSeek R1模型,这一消息引发了广泛关注。然而,经过仔细分析相关论文,我们发现事实并非如此简单。

事件背景

今天下午,一条新闻在科技圈内刷屏:"震惊"、"李飞飞"、"50 美元"、"Deep Seek R1",这几个词连到一起,仿佛要掀翻OpenAI和英伟达的地位。即便是蒸馏出来的模型,这样的低成本也让人难以置信。OpenAI投入了几十、几百亿美元开发的模型,竟然被如此轻松地复制?带着这样的疑问,我仔细阅读了相关的论文。

论文解读

论文链接:https://arxiv.org/html/2501.19393v1
GitHub项目:https://github.com/simplescaling/s1

成本分析

首先,让我们来看看这个50美元是怎么来的。论文中提到使用了16块H100 GPU,训练时间仅为26分钟。如果是在云服务器上租用,这样的成本确实大约在50美元左右。

实际内容

但是,关键问题在于:论文中并没有训练出DeepSeek R1模型!

论文的核心内容是基于开源的Qwen2.5-32B模型进行研究。这是一个蒸馏出来的模型,参数量为32B,属于中等规模。而实验中对比的R1和o1模型参数量都在数千亿级别。研究团队使用了一个小数据集对模型进行监督微调,微调后的模型参数量与原始模型基本保持一致。实验结果显示,经过特定任务优化后的模型性能可以媲美DeepSeek R1和OpenAI o1。

研究方法

研究背景与目标:当前语言模型性能提升主要依赖于训练时计算资源的扩展。测试时缩放是一种新的范式,OpenAI的o1模型展示了其潜力,但方法未公开。本研究旨在探索实现测试时缩放和强推理性能的最简单方法。

s1K数据集构建:

  • 初始数据收集:依据质量、难度和多样性原则,从16个来源收集59,029个问题,涵盖现有数据集整理和新的定量推理数据集创建。使用Google Gemini Flash Thinking API生成推理轨迹和解决方案,并进行去重和去污染处理。
  • 最终样本选择:经过质量、难度和多样性三步筛选,得到1,000个样本的s1K数据集。质量筛选去除API错误和低质量样本;难度筛选依据两个模型的性能和推理轨迹长度排除过易问题;多样性筛选按数学学科分类,从不同领域采样,且倾向选择推理轨迹长的样本。

测试时缩放方法:

  • 方法分类与提出:将测试时缩放方法分为顺序和并行两类,重点研究顺序缩放。提出预算强制(Budget forcing)方法,通过强制设定思考令牌的最大或最小数量,控制模型思考时间,引导模型检查答案、修正推理步骤。
  • 基准对比:将预算强制与条件长度控制方法(令牌条件控制、步骤条件控制、类别条件控制)和拒绝采样进行对比。使用控制(Control)、缩放(Scaling)和性能(Performance)三个指标评估,结果表明预算强制在控制、缩放和最终性能上表现最佳。

实验结果:

  • 实验设置:用s1K对Qwen2.5-32B-Instruct进行监督微调得到s1-32B模型,在AIME24、MATH500和GPQA Diamond三个推理基准上评估,并与OpenAI o1系列、DeepSeek R1系列等模型对比。
  • 性能表现:s1-32B在测试时缩放中,性能随测试时计算资源增加而提升,在AIME24上超过o1-preview达27%,且是最具样本效率的开源数据推理模型,接近Gemini 2.0在AIME24上的性能,验证了蒸馏过程的有效性。

消融实验:

  • 数据相关:测试数据质量、多样性和难度组合的重要性。随机选择(仅质量)、仅多样性选择、仅难度选择(选最长推理轨迹样本)的数据集性能均不如s1K,训练59K全量样本虽性能强但资源消耗大,证明s1K构建方法的有效性。
  • 测试时缩放方法:预算强制在AIME24测试中控制完美、缩放良好、得分最高,“Wait”作为扩展性能的字符串效果最佳。令牌条件控制在无预算强制时失败,步骤条件控制下模型可绕过计算约束,类别条件控制虽能提升性能但综合表现不如预算强制,拒绝采样呈现反向缩放趋势。

讨论与展望:

  • 样本高效推理:众多研究致力于复制o1性能,本文通过1,000样本监督微调结合预算强制,构建出有竞争力的模型,推测预训练使模型具备推理能力,微调激活该能力。同时,介绍了相关基准和方法的发展情况。
  • 测试时缩放:对比了并行和顺序测试时缩放方法,分析了预算强制的局限性,提出改进方向,如改进预算强制策略或结合强化学习探索新的测试时缩放方式,并指出并行缩放可作为突破顺序缩放限制的解决方案。

结论

国内的网络环境确实存在浮躁现象,很多信息未经核实就广泛传播,容易误导大众。希望大家在面对此类信息时能够保持理性思考,多做调查和分析。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号