李飞飞团队以极低成本训练出高性能AI模型s1，引发行业关注

创作时间:

作者:

@小白创作中心

李飞飞团队以极低成本训练出高性能AI模型s1，引发行业关注

引用

新浪网

https://finance.sina.com.cn/roll/2025-02-07/doc-ineirmwh0207387.shtml

（图片来源：摄图网）

近日，斯坦福大学和华盛顿大学的研究团队宣布，他们成功训练出一个名为s1的人工智能推理模型。令人惊讶的是，整个训练过程仅花费不到50美元的云计算费用。这一突破性成果引发了AI界的广泛关注。

研究人员表示，李飞飞团队通过蒸馏法，从谷歌的推理模型Gemini 2.0 Flash Thinking Experimental中提炼出了s1。使用了16个英伟达H100 GPU，仅仅进行了26分钟的训练，便诞生了一个能与顶尖推理模型相媲美的32B推理模型。这种方法的精髓在于如何有效地传递知识，使得小模型在保持大模型推理能力的同时，能够在资源消耗上展现出极大的优越性。

在数学和编码能力测试中，s1展现出了与OpenAI的o1和DeepSeek的R1等尖端推理模型相当的实力。这一成果不仅证明了在AI模型训练中，高成本并不一定意味着高性能，更为重要的是，它预示着AI模型训练将进入一个更加平民化的新时代。

此前，DeepSeek也曾发布一系列DeepSeek-R1模型，探索了将R1的推理能力蒸馏到更小模型中的潜力。通过知识蒸馏技术，DeepSeek成功地将大模型的推理能力传递给小模型，实现了小模型在推理任务上的显著提升。

全球大模型领域领先企业及产品布局情况

当前全球AI大模型行业正处于技术创新与商业化加速推进的阶段。OpenAI、Google、微软等美企处于领先地位，主导生成式AI、自然语言处理等领域，模型如GPT系列和PaLM广泛应用。

大语言模型行业发展趋势分析

随着人工智能技术的不断进步，大语言模型已成为推动自然语言处理领域革新的关键力量，未来大语言模型发展趋势主要有四大方向：

模型规模持续扩大，学习能力增强，同时在效率上也取得了显著提升，使得处理速度更快且成本更低。
多模态能力的发展让模型不仅能理解文本，还能处理图像、声音等多种类型的数据，极大地拓宽了应用范围。
跨语种能力的进步则打破了语言障碍，使得模型能够服务于全球更广泛的用户群体。
可解释性和透明度的增强，使用户和监管者能够更好地理解和信任模型的决策过程。

针对特定行业的应用深化，使得大语言模型能够更精准地服务于医疗、法律、金融等专业领域，提供定制化的解决方案。这些趋势共同塑造了大语言模型的未来发展方向，预示着一个更加智能、高效、透明且多能的时代即将到来。

国内外主要大语言模型数据集

得益于开源共创的互联网生态，海外已有大量优质、结构化的开源数据库，文本来源既包含严谨的学术写作、百科知识，也包含文学作品、新闻媒体、社交网站、流行内容等，更加丰富的语料数据能够提高模型在不同情景下的对话能力。而受制于搭建数据集较高的成本以及尚未成熟的开源生态，国内开源数据集在数据规模和语料质量上相比海外仍有较大差距，数据来源较为单一，且更新频率较低，从而导致模型的训练效果受限。因此，大模型厂商的自有数据和处理能力构成模型训练效果差异化的核心。

受益于移动互联网时代积累的海量用户、应用和数据，互联网企业在自有数据上更具特色化和独占性，叠加更强大的数据处理能力，从而能够通过数据优势带来模型训练成果的差异。例如，阿里在研发M6时，构建了最大的中文多模态预训练数据集M6-Corpus，包含超过1.9TB图像和292GB文本，涵盖百科全书、网页爬虫、问答、论坛、产品说明等数据来源，并设计了完善的清洁程序以确保数据质量。百度ERNIE模型的训练数据集中也运用了大量百度百科、百度搜索以及百度知识图谱等生态内数据，通过更高质量的数据保障了模型的训练效果。

中国科学院院士、清华大学人工智能研究院名誉院长张钹在 isc.ai2024第十二届互联网安全大会上指出，大语言模型具有强大的语言生成能力、人机自然交互能力和举一反三能力，但存在 “幻觉” 缺陷。未来大模型有与人类对齐、多模态生成、AI agent(智能体)、具身智能四个发展方向。

阿里云副总裁、产业智能首席科学家张磊在 2024AI + 数字笔迹创新应用发展论坛上提出，大模型的应用发展可分为三个阶段，分别是没有行业属性的通用应用阶段、具备行业属性的应用阶段、打破固有生产关系的阶段。大模型产业中长期有大模型越来越多的普惠效应和基础设施供给的极化效应两个趋势。

中国互联网协会人工智能工委会主任委员、北京大学教授黄铁军表示，未来视觉、听觉、具身、行动等智能会逐渐实用化，大模型的规模会突破 1 万亿、10 万亿、百万亿甚至更大。

热门推荐

什么是快应用?快应用真的能替代小程序吗?