问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

OpenAI最新模型o1:用思维链技术破解AI算力成本难题

创作时间:
2025-01-22 01:44:13
作者:
@小白创作中心

OpenAI最新模型o1:用思维链技术破解AI算力成本难题

OpenAI最新发布的o1模型可能成为继ChatGPT之后,再次改变人工智能发展方向的重要里程碑。o1模型在数学推理能力上的突破,以及对传统Scaling Law的重新诠释,预示着AI领域可能迎来新的增长模式。

出其不意的发布

北京时间9月13日凌晨,OpenAI公布了其最新的AI模型o1。与之前备受期待的GPT-5不同,OpenAI选择了全新的命名方式,以凸显这次发布的重大变革。o1模型的发布非常突然,之前没有任何征兆。目前,付费用户已经可以体验到o1-preview(预览版)和o1-mini(mini版),而满血版本尚未对外开放。

对于普通用户来说,o1模型带来的最大变化是AI在处理复杂数学问题时的表现。以前的模型在处理数学题时可能会给出流畅但错误百出的答案,而o1则能够逐步展示其思考和推理过程,计算思路明显更加准确。

Scaling Law:AI界的摩尔定律

Scaling Law揭示了深度学习能力和规模之间的根本规律,对于AI行业来说,它类似于集成电路行业中的摩尔定律。从2019年开始,这条规律就一直在指导着AI领域的发展,尤其是OpenAI更是其忠实的践行者。如果将Scaling Law看作是AI领域的摩尔定律,那么OpenAI就是AI领域的Intel。

Scaling Law的概念源自标度理论(Scaling Theory),这是一个用于描述和预测复杂系统在不同规模下行为的理论框架。其最核心的内容指出,在许多不同的系统中,系统的某个性能指标和它的规模呈现幂律关系。


幂律分布示意图(可见长尾效应)

例如,在物理学中,一个系统在相变点附近,系统的某些物理量会随着系统规模的变化而呈现出幂律关系。在网络科学中,网络中的节点度分布往往遵循幂律分布;在生物学中,动物的代谢率与其体重之间也呈现幂律关系;在城市科学中,城市规模与城市的GDP、犯罪率、疾病传播等各种指标之间也是幂律关系。

在人工智能领域,Scaling Law则是指一个模型的错误率和它的规模呈现幂律关系。并且这个幂律关系,不依赖于具体的模型和算法细节。


“Deep Learning Scaling is Predictable, Empirically”

从GPT-3到GPT-4

真正让Scaling Law的价值发挥出来的是OpenAI。OpenAI在2020年1月发表的一篇论文指出,大语言模型的错误率不仅与数据规模有幂律关系,还与计算规模、参数规模有幂律关系。


大语言模型的错误率和数据规模、计算规模、参数规模有幂律关系

在这篇论文中,OpenAI提到的规模最大的模型参数是1.5B(15亿),训练时间需要每秒千万亿次的设备计算10天,也就是10 petafloat-day(PF-day)。在当时,这个设备大概需要33个英伟达的V100 GPU。如果模型扩大100倍,需要用到的训练时间是多少呢?很快,这个问题就有了答案。2020年6月,OpenAI公布了他们的GPT-3,参数规模达到175B。根据后来的估算,训练GPT-3大概花了92天的时间。而训练用的设备则是微软提供的超级计算机,其配备了10000个V100 GPU。

这个数据继续遵循着Scaling Law。


错误率和规模的图像在对数坐标中看不到拐点

不过Scaling Law和摩尔定律也不同。摩尔定律持续了几十年,直到最近几年才有了摩尔定律将会失效的讨论。而对Scaling Law失效的讨论则来得有些早。2020年1月,在OpenAI的论文中,错误率和规模的图像在对数坐标还看不到拐点(幂律图像在对数坐标中是一条直线)。这样还可以期待随着规模的增加,错误率可以逐渐接近0。但是仅仅过了10个月,2020年11月,在OpenAI的另一篇论文中,Scaling的有效性就迎来了挑战,图像模型、视频模型的错误率随着规模的增加,有一个无法消除的下限,而不是可以接近于0。换句话说,规模增加对模型能力带来的影响是有天花板的。


图像模型、视频模型的错误率并不可以接近于0

不过,这篇论文给大语言模型还留下了一线希望,因为在大语言模型中还没有观察到明显的拐点。但是这并不代表着,大语言模型的收益可以随着规模的增加一直增加。这是因为,在2022年3月份的时候,谷歌的Deepmind团队也发表了一篇论文,论文指出:即便是大语言模型,在规模无限大的时候,一定也有一个无法消除的下限。像GPT-3那样有千亿级别的参数规模,这个下限还不需要特别考虑,但是下一步是否规划更大规模的大语言模型、为了训练更大规模的模型而投入更多成本是否值得,这篇论文中并没有结论。


Deepmind团队论文截图

不知道OpenAI是否也有Scaling Law可能会失效的顾虑,GPT-3.5的参数规模只有少量增加,从原来的175B提高到了200B左右。GPT-3.5更多的是优化了自然语言和代码的生成能力,也正是在此基础上,OpenAI做出了第一个爆款应用ChatGPT。ChatGPT的发布时间2022年11月30日,也成为了AI元年的开端,各大厂商纷纷入局开始布局自己的大模型。

在人们还没有来得及思考Scaling Law是否已在失效边缘的时候,OpenAI在2023年3月就发布出了GPT-4。尽管OpenAI没有公开GPT-4的技术细节,不过业内人士还是可以估计它的参数已经达到了1000B的规模。相比GPT-3,GPT-4的模型规模扩大了将近10倍,而训练花费则是增加了将近100倍。

在GPT-4的技术报告中,OpenAI又再次强调:在训练GPT-4之前,他们就根据Scaling Law预测过模型的最终表现。而实际结果表明,他们的预测非常准确。从ChatGPT到GPT-4只用了3个多月的时间,所以难免会让人产生期待,OpenAI匹配Scaling Law的下一次升级可能很快就会到来。不过让人失望的是,这期间只发布过不疼不痒的GPT-4o,虽然中间也有内部项目Q*和“草莓”,就是GPT-5的流言,但是在1年多的时间里,OpenAI的表现的确是让人失望。

寻找新增长模式

与此同时,其他厂商正在加快脚步追赶,先是有Anthropic公司的Claude 3 Sonnet,后有Meta的Llama 3。越来越多的大语言模型追赶上了GPT-4的性能。在这个过程中,GPT-4为什么可以在规模如此巨大的情况下,依然能匹配Scaling Law的奥秘,也被逐渐发掘出来。如果仅仅是靠增加参数规模和堆积更多的训练算力,很难在1000B参数的规模下继续匹配Scaling Law。


Claude 3 Sonnet

而GPT-4可以做到这一点,依赖于它在模型训练之外进行的优化。主要分为训练前(pre-training)和训练后(post-training)两部分。“训练前”往往是指对数据的预处理,方便模型读取和理解。GPT-4就引入了多模态功能,可以处理文本和图像输入,让训练的数据更加丰富。“训练后”往往是指对模型的微调。GPT-4就用到了“基于人类反馈的强化学习”(RLHF),减少了不当内容响应的概率,提高了生成事实性内容的能力。

但是,训练前和训练后的优化,可以带来的性能提升终究是有限的。否则OpenAI也不会超过1年时间没有继续公布新模型,而其他团队的模型即便超过了GPT-4也没有大幅领先。很多业内人士都清楚,Scaling Law或许还没到失效的地步,但是要想继续匹配Scaling Law,就需要寻找到新的增长模式。

o1思维链:AI新增长模式?

o1里的思维链(CoT)或许就代表着这个新增长模式。o1发布之后,OpenAI研究员Noam Brown在他的社交媒体上,就直接将其称为匹配Scaling Law的新范式。


o1概念图

思维链对于普通用户来说,就是让AI模型懂得了分步骤思考,每个步骤都可以通过反思的方式增加最终回答的准确程度。而增加了AI模型最终回答的准确程度,也就是提高了AI模型的能力。思维链之所以可以称为维持Scaling Law的新范式,是因为这部分能力的提升并不依赖模型的训练过程,而是依赖于一个模型在训练完成之后的推理过程(Inference)。

o1之前的大语言模型规模增长,带来的主要成本是训练成本;而思维链则可以将传统的Training-Time Scaling模式转化成Inference-Time Scaling。


训练完成之后的推理过程(Inference)大幅增长

o1所带来的模式转化,不只是为Scaling找到了新增长模式,对算力的成本分配也会带来新的可能。训练过程一定是在服务器端完成的,所以训练的算力成本一定是由模型的开发者全部承担;而推理过程可以在用户自己的手机和电脑上完成,这部分算力成本可以由用户承担。

当然,o1这种依靠思维链的方式,是否真的代表着AI迎来了新增长模式,我们现在还只能做出期待,下结论还为时过早。相信后续会有更多研究,我们科技联播也会持续关注。

本文原文来自澎湃新闻

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号