Scaling Law“暴力美学”真的失效了吗?
Scaling Law“暴力美学”真的失效了吗?
近期,围绕Scaling Law的讨论不绝于耳。起因是,有消息称OpenAI下一代旗舰模型Orion(或称GPT-5)相较于现有模型,能力提升"有限",而且运行成本更高。与此同时,Google的Gemini模型和Anthropic的Opus 3.5也遇到了类似的问题。这些现象引发了人们对于AI领域"更大更好"的暴力美学是否已经走到尽头的思考。
Scaling Law:AI行业的第一性原理
2020年,OpenAI在论文《Scaling Laws for Neural Language Models》中提出了Scaling Law理论。该理论指出,影响大模型性能的三大要素是计算量、数据集大小和模型参数量。当不受其他两个因素制约时,模型性能与每个单独的因素都存在幂律关系。
按照Scaling Law的逻辑,"更大更好"的暴力美学应该持续有效——通过堆砌更多的算力、参数和数据,大模型的能力应该得到大幅提升。然而,当模型规模和成本大幅增加,但实际性能却提升"有限"时,Scaling Law神话是否会被终结?
正方观点:Scaling Law神话终结
Ilya Sutskever:扩展训练的结果,已经趋于平稳
作为Scaling Law的早期倡导者之一,前OpenAI首席科学家Ilya Sutskever表示,传统的无监督Pre-training已经达到了极限。他说,2010年代是 Scaling的时代,现在我们再次回到发现奇迹的时代。每个人都在寻找下一个奇迹。现在重要的是扩大"正确"的规模。
Ilya没有透露新方法的具体内容,但根据OpenAI和Google的尝试,我们可以窥探一二。OpenAI的研究人员正在开发推理模型等新技术,用于弥补传统训练方法的局限性。Google也效仿这一思路,DeepMind在Gemini团队内组建了一个由首席研究科学家Jack Rae和前Character.AI联创Noam Shazeer领导的小组,专注于开发类似能力。
此外,DeepMind团队还在手动优化模型性能,包括调整超参数等变量。这些超参数决定了模型处理信息的方式,例如,迅速在训练数据中建立概念或模式之间的联系。研究人员通过"模型调优"测试不同的超参数,以确定哪些变量将带来最佳效果。
Arvind Narayanan & Sayash Kapoor:合成数据作用不大
普林斯顿大学计算机科学教授Arvind Narayanan与其博士生Sayash Kapoor指出,Scaling"崇拜论"是建立在一系列误解之上。
什么是"更好的"模型? 具有"涌现能力"的模型。然而,"涌现能力"不受任何类似定律的支配。如果LLM无法超越训练数据中的内容,就会进入每一个传统的机器学习模型最终都会进入的平台期。
更多的数据从哪里来? 虽然YouTube包含约1500亿分钟的视频内容,但考虑到其中大部分视频缺乏可用的音频,经过去重、质量过滤后,实际可用的训练数据远少于Llama 3所使用的15万亿tokens。对于LLM而言,我们可能还有几个数量级的扩展空间,也可能扩展已经结束了。
合成数据不是万能魔药。 开发者并未(也无法)利用合成数据显著增加训练数据的总量。这种方法在围棋这样完全封闭的环境中表现出色,但在更开放的任务(如语言翻译)上实现类似的无限自我改进仍然是一个挑战。
反方观点:Scaling Law没有墙
OpenAI CEO Sam Altman:there is no wall
Sam Altman在X平台上发言表示,Scaling Law没有遇到瓶颈。近期,他在Reddit的Ask Me Anything上也表示,OpenAI将在今年晚些时候发布"非常好的版本"。然而,鉴于Ilya Sutskever的威望,以及OpenAI的当前表现,Altman的话难免有"挽尊"之嫌。
微软AI主管Mustafa Suleyman:不会有任何放缓
Suleyman表示,模型的规模既在变大,也在变小,这种趋势会持续下去。去年开始流行一种新方法,称为蒸馏。这类方法利用大型、高成本模型来训练小型模型。这种监督效果相当不错,目前已有充分的证据支持这一点。因此,规模仍然是这场竞争中的关键因素,未来还有很大的发展空间,数据量也将持续增长。至少在接下来的两三年内,Scaling Law在提供超预期表现方面的进度不会有任何放缓。
微软CEO Satya Nadella:是定律,并且一直有效
Satya Nadella表示,Scaling Law是经验观察所得,但它被我们称作定律,并且一直有效。
前谷歌CEO Eric Schmidt:没有证据显示
Eric Schmidt表示,没有证据表明Scaling Law已经开始停止。他预测在未来五年,人工智能系统的能力将是现在的100倍,能够在物理和数学领域进行推理。
Abacus.AI CEO Bindu Reddy:是技术太成熟了
Bindu Reddy表示,所谓的AI减速实际上无关紧要。主要原因在于AI技术发展的潜力已经几乎在各类基准测试中得以体现。当达到100/100的高分时,就很难再找到新的突破方向。因此,AI 市场的"放缓"更多地反映了技术成熟度,而非创新能力的不足。
Scaling Law 2.0:token越多,精度也要越高
近期,来自哈佛大学、斯坦福大学、麻省理工等机构的合作团队发表了一篇题为《Scaling Laws of Precision》的论文,引发疯狂讨论。研究提出:精度在模型扩展规律中比之前认为的更加重要,可以显著影响语言模型的性能。在以往描述模型性能随参数量和训练数据量变化的扩展规律,基本忽略了精度这一因素。随着模型规模的不断扩大,低精度的量化或将不再有效。
首先,通过实验,研究人员制订了新的精度缩放定律。另一项重要发现则提出了预训练期间计算的最优精度。根据该研究,当同时优化参数数量、数据和精度时,这一精度通常与计算预算无关。
其次,普遍采用的16位模型训练法并非最优,因为很多位是多余的。然而,使用4位进行训练则需要不成比例地增加模型大小,以维持损失缩放。研究人员的计算表明,对于较大的模型而言,7-8位是计算最优的。
当模型大小从一开始就固定时,情况就会发生变化:更大且更好的模型应以更高的精度进行训练——例如,使用16位的Llama 3.1 8B模型。实际的计算节省还取决于硬件对更低精度的支持。此外,这里研究的模型(参数最多达17亿个)尚未在最大的实际规模上进行测试。不过,这些一般趋势仍然适用于更大的模型。
CMU教授 Tim Dettmers表示,这是长久以来最重要的一篇论文。他认为,人工智能的大部分进步都来自计算能力的提升,而(最近)这主要依赖于低精度路线的加速(32- > 16 - > 8位)。现在看来,这一趋势即将结束。再加上摩尔定律的物理限制,大模型的大规模扩展可以说要到头了。他预计,随着低精度带来的效率提升达到极限,将出现从纯规模扩张向专用模型和人本应用的转变。
AGI路漫漫。不过,大家无需灰心。正如OpenAI研究人员Steven Heidel 所言,就算现在LLM 停滞了,在当今模型的基础上,还有至少十年的产品等着你去开发。
是不是又干劲十足了。