问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

“李飞飞团队50美元炼出DeepSeek R1”,如何被曲解了?

创作时间:
作者:
@小白创作中心

“李飞飞团队50美元炼出DeepSeek R1”,如何被曲解了?

引用
虎嗅网
1.
https://m.huxiu.com/article/3989225.html

近日,一篇关于李飞飞团队开发的s1模型的论文引发了广泛关注。该模型据称仅需不到50美元的云计算费用就能训练出,且性能可与OpenAI的o1和DeepSeek的R1等顶尖推理模型媲美。然而,这一说法引发了诸多争议和误解。本文将详细解析s1模型的技术细节、成本分析以及被曲解的方面。

模型开发背景

李飞飞团队开发的s1模型在数学和编码能力测试中的表现引起了广泛关注。该模型的核心创新在于s1K数据集和预算强制法。s1K数据集包含1000个精心挑选的问题,涵盖了数学竞赛问题、博士级别的科学问题、奥林匹克竞赛问题等,配有推理轨迹和答案。这些数据主要来自NuminaMATH、OlympicArena、OmniMath等数据集,团队还创建了两个原始数据集s1-prob和s1-teasers。

对于测试时扩展方法,s1团队将其分为两类:并行(后续计算独立运行)和顺序(后续计算基于早期计算)。团队更为关注后者并研发了预算强制方法,用于控制模型在测试时的计算量。如果模型生成的思考标记超过预期限制,就强制结束思考过程;如果希望模型在问题上花费更多计算量,则抑制“end-of-thinking token”并追加“等待”,以鼓励更多探索。

最后,团队对阿里的Qwen2.5-32B-Instruct模型进行s1K的监督微调并应用预算强制,得到模型s1-32B。微调使用PyTorch FSDP,在16个NVIDIA H100 GPU上花费了26分钟。

争议与误解

对于该论文的成果,网络上出现了诸多争议和误解。有人提炼出以下关键信息:李飞飞团队用不到50美元训练出媲美DeepSeek R1、OpenAI o1的AI推理模型;该模型通过蒸馏法由Gemini Thinking Experimental模型提炼出来的1000个样本小型数据集;对Qwen2.5-32B-Instruct模型进行监督微调;使用16个英伟达H100 GPU进行了26分钟的训练。

对此,知乎大模型优秀答主段小草对讨论较多的问题进行了剖析:

问题一:都说是李飞飞团队,跟她有关系吗?

有关系,但不好说多不多。论文标*的共同一作有4位,主要工作也应该是这几位做的。李飞飞应该是指导/挂名(论文致谢中说了GPU和经济赞助是斯坦福大学,但全文没有提及李飞飞更多的具体论文贡献)。

其中,Niklas Muennighoff目前在斯坦福大学攻读博士研究大型语言模型,与Contextual AI & Ai2有合作,学士学位是在北京大学获得。Zitong Yang是斯坦福大学自然语言处理组的统计学博士,曾分别在谷歌、苹果任职。Xiang Lisa Li也是斯坦福大学博士,开发了HALIE框架。Weijia Shi则是华盛顿大学博士,目前在Ai2工作。

问题二:真的只用花50美元吗?

如果只考虑最后一轮成功微调训练出s1模型所消耗的GPU卡时,是的,甚至更少。论文中提到的s1模型的训练卡时只需要7 H100卡,作者对媒体说的原话是“可以用20美元在云平台上租到这些算力”。

关于这里的成本,有三点需要说明:

  • s1模型是基于Qwen2.5-32B-Instruct模型使用1000条数据进行的SFT微调,而非从头开始的模型训练;
  • 这里的成本只包括训练时的GPU算力费用,而不包括人力、数据等一切其他成本;
  • s1模型并非只训了一轮,研究人员还做了很多其他的实验和测试。

问题三:真的能超过o1/R1吗?

不能。只能通过精心挑选的训练数据,在特定的测试集上超过o1-preview,远远没有超过o1正式版或者DeepSeek R1。看论文中给出的数据,最后一行就是论文的主要成果:

由此看出,在AIME 2024和MATH 500两个测试集中,s1可以超过o1-preview,但无论在哪个测试集,s1都没有超过o1正式版和R1,而且可以说差距还很大。

为什么说还需要精心挑选数据呢?可以看另一组分数,这是用不同数据集微调的分数差异:

问题四:训练数据真的是“蒸馏”Gemini吗?

s1团队先收集了59k问题,然后从中筛选出了最终的1k问题。将这1k问题提交到Gemini 2.0 Flash Thinking中生成思维链和答案,以此构建数据集去微调开源的Qwen模型。“尽管我认为,这种做法严格来说不叫蒸馏,而是拿Gemini生成数据并对Qwen做SFT(有监督微调),但作者们自己在论文里写了这就是‘蒸馏’。那我只能说,现在‘蒸馏’的概念显然已经被扩大化了。”

问题五:虽然没超过o1/R1,但确实能超过o1-preview,同时微调后也的确比Qwen2.5-32B-Instruct进步显著,怎么做到的?

一是微调用的训练数据起到了一定作用;二是强制让模型延长思考时间(test time scaling),具体做法叫做“Budget Forcing”预算强制,也就是强制限制模型使用最大或最小tokens进行推理,以此控制模型的思考长度。为了尽可能延长模型的思考,他们将模型的思考放在标签内,当结束后,以final answer给出答案,同时,当LLM即将停止思考时,会强制输出Wait来迫使模型继续思考,通过这样的方式,模型会进入反思,并可能会发现自己的错误。推理时插入的“Wait”,也许会像当初的Step by Step一样,成为一个魔法token。“这或许就是古人‘三思而后行’的哲学吧!”

问题六:我可以体验s1模型吗?

s1模型的论文、数据、模型完全开源,但并没有托管线上服务以供直接体验。不过,有人对s1-32B模型进行了量化,你可以使用ollama run hf.co/brittlewis12/s1-32B-GGUF:Q4_0拉取到本地运行。

最后总结一下就是:李飞飞的学生,精心选了1000条高质量的数据,通过让Gemini补充完善思维链之后作为数据集,以开源的Qwen2.5-32B为基座微调出s1;然后在s1输出时,用“预算强制”方法强行拉长模型的思考时长和输出token,然后发现其结果在特定测试集上可以媲美o1-preview,但比不过o1和DeepSeek R1(差距还比较大)。“该论文的工作确实有一定价值,但远远不必夸大到颠覆o1/R1甚至NVIDIA算力需求的级别。顺便一提,近期有另一篇论文《LIMO: Less is More for Reasoning》,同样是基于Qwen2.5-32B探讨测试时计算扩展,可以一并学习。”段小草说道。

其中,《LIMO: Less is More for Reasoning》发现,通过极少数数据示例即可有效激发模型的复杂数学推理能力。这一发现不仅挑战了模型对大规模数据需求的假设,还挑战了监督微调(SFT)主要导致记忆而非泛化的常见观点。根据论文,LIMO团队仅使用了817个精选训练样本,通过构建更高质量推理链,结合推理时计算扩展和针对性微调,就在极具挑战性的AIME基准测试中达到了57.1%的准确率,其中MATH基准测试中达到了94.8%的准确率,数据量是之前基于SFT大模型的1%,但AIME准确率从6.5%提升至57.1%,MATH从59.2%提升至94.8%。值得注意的是,该论文一作Yixin Ye是上海交大的本科生,也是GAIR实验室成员,未来计划读博。

如何被曲解了?

“李飞飞团队”的这篇论文1月31日提交并于2月3日修订后,作者Niklas Muennighoff发了一篇推文,可以看作这篇论文宣传的冷启动。值得注意的是,这里论文作者自己说明了复现的是o1-preview的成绩,而不是o1,也不是R1。

之后,AI工程师Tim Kellogg于2月3日发了一篇博客,标题简单直接地写道“S1:6美元的R1竞争对手”。“这篇文章比较标题党,因为你不可能用6美元租到16卡的H100算力,不知道作者是如何估算出这个价格的。但是不重要,总之这个时候所谓的成本就是16 x H100 x 26分钟。”段小草评价道。

北京时间2月6日上午,外媒TechCrunch发了一篇报道《研究人员用不到50美元为OpenAI o1推理模型制造了一个开源的竞争对手》,这篇报道除了用50美元作噱头外,关于论文技术部分的内容还是比较靠谱的。而“50美元”的来源是Niklas Muennighoff在采访中告诉TechCrunch,他可以用大概20美元的价格从云平台租到一次训练所需的算力。TechCrunch还是“保守”了一点,帮他把20美元改成了不到50美元。

消息传到国内,李飞飞、50美元、R1、o1等都成了关键词,也被很多人误读。不过也有人对此不是很在意,“真假暂且不说,我个人认为意义还是非凡的,标志着高等级大模型这种王谢堂前燕,开始飞入寻常百姓家。”

相关链接:

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号