问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

大模型套壳祛魅:质疑套壳,理解套壳

创作时间:
作者:
@小白创作中心

大模型套壳祛魅:质疑套壳,理解套壳

引用
1
来源
1.
https://aijishu.com/a/1060000000452060

2023年是大模型元年,国产大模型数量已经超过200个。在这一轮大模型热潮中,"套壳"成为了一个备受关注的话题。从百度文心一言到零一万物,从字节跳动到谷歌Gemini,各种"涉嫌套壳"的事件屡次冲上热搜。那么,什么是"套壳"?它到底意味着什么?本文将从技术、商业等多个维度,为你揭示大模型"套壳"现象背后的真相。

大模型的统一"内核"

为了更好地理解套壳,必须区别"外壳"与"内核"的区别。

今天,所有大模型的内核,都起源于2017年谷歌大脑团队发布的Transformer神经网络架构。Transformer一经问世,逐步取代了过去的RNN(循环神经网络)与CNN(卷积神经网络),成为NLP(自然语言处理)前沿研究的标准范式。

在Transformer诞生的十年前,有一部好莱坞大片《变形金刚》在全球上映,这部电影的英文名字就叫"Transformers"。就像电影中能够灵活变身的变形金刚一样,作为神经网络架构的Transformer也可以通过改变架构组件与参数,衍生出不同的变体。

Transformer的原始架构包含两个核心组件——编码器(Encoder)与解码器(Decoder),编码器负责理解输入文本,解码器负责生成输出文本。在Transformer的原始架构上"魔改"衍生出三个变体架构——只采用编码器(Encoder-only),只采用解码器(Decoder-only),以及两者的混合体(Encoder-Decoder)。

这三个变体架构分别有一个代表性模型——谷歌的BERT,OpenAI的GPT系列模型,以及谷歌的T5。今天,这三个模型名称通常也指代了其背后的模型架构名称(后文也以此指代)。

在2020年之前,NLP的模型研究基本都是围绕算法展开,基于BERT、T5与GPT架构的模型百花齐放。这一时期模型参数较小,基本都在10亿以内量级。其中,谷歌BERT的表现独领风骚,基于BERT架构的模型一度在阅读理解的竞赛排行榜中屠榜。

直到2020年,OpenAI发布一篇论文,首次提出了Scaling Laws(尺度定律),NLP的研究才正式进入大模型时代——大模型基于"大算力、大参数、大数据",模型性能就会像摩尔定律一样持续提升,直到"智能涌现"的时刻。

在此期间,GPT架构的性能表现逐渐超越BERT与T5,成为大模型的主流选择。今天百亿参数以上的主流大模型中,除了谷歌最新发布的Gemini是基于T5架构,几乎清一色都是从GPT架构衍生而来。可以说,GPT完成了一场大模型架构内核的大一统。

从大模型的进化脉络来看,今天所有的模型都是在"套壳"Transformer以及其三个变体架构。

当然,Transformer也有"不愿套壳"的挑战者。比如,2023年12月5日,两位分别来自卡内基梅隆大学与普林斯顿大学的教授,发布了一款名为"Mamba"(曼巴)的新架构,在语言建模性能媲美Transformer的同时,还解决了一些扩展性的局限。但这个新架构的具体表现,还需要时间的检验。

模型架构选择只是第一步。百川智能创始人、CEO王小川在一个月前的2023甲子引力年终盛典上将大模型训练比作"炒菜",模型架构只是一个菜谱。要想得到一盘完整的菜,还需要烹饪,也就是大模型训练的过程;以及食材,也就是数据。

大模型的烹饪过程可以粗略地分为预训练(Pre Train)与微调(Fine-Tune)两大阶段。

预训练是大模型训练最核心的环节,通过把大量的文本信息压缩到模型中,就像一个学生寒窗苦读的过程,来让模型具备世界知识。OpenAI创始人之一、特斯拉前AI总监安德烈·卡帕西(Andrej Karpathy)在2023年5月的微软Build大会上透露:"预训练就是在超级计算机中使数千个GPU以及可能进行数月时间来处理互联网规模数据集的地方,占据训练时间的99%。"

在漫长的预训练之后会得到一个基座模型(Base Model),在基座模型的基础上加入特定行业的数据集做进一步的微调,就会得到一个微调模型(Fine-tuning Model),或者称为行业模型、垂直模型。

微调通常分为两个步骤——SFT(有监督微调)+RLHF(人类反馈强化学习),其中RLHF是OpenAI的创新设计,它决定了模型能够与人类意图与价值观对齐,是训练一个可靠的对话模型不可或缺的环节。

预训练成本极高,因此每年或几个月才会做一次。OpenAI训练ChatGPT大约花费了大约1200万美元,Meta训练Llama 65B花费了500万美元。相比之下,微调成本较低,可能只需要短短几天甚至一天。

正因如此,只有充足的算力、财力的大公司与资本支持的雄心勃勃的创业公司,才会涉足基座模型。"百模大战"中的国产大模型数量虽然多,但只有大约10%的模型是基座模型,90%的模型是在开源模型基础上加入特定数据集做微调的行业模型、垂直模型。其中,应用最广的开源基座模型,目前就是Meta的Llama 2。

从大模型的训练过程来看,没有人会对架构选择——"套壳"Transformer有异议。但围绕架构之后的预训练,成为了一个套壳与否的隐秘角落。

"原创派"与"模仿派"

预训练是大模型最核心的环节,也是"套壳"与"自研"争议较多的环节。

前面提到,模型架构只是大模型的菜谱——目前有BERT、T5与GPT三大菜谱,而每个菜谱上会有具体的菜名——预训练框架。按照预训练框架的菜谱炒菜,就是预训练的过程。

一个可以肯定的事实是,所有的定位做基座模型的公司,都是从头开始投入真金白银做了完整的预训练,但菜谱的由来,却分成了两派。

第一派,就是标准意义的"自研派",从菜谱开始研究,自研了预训练框架。

这一派的共同点就是布局较早,可以追溯到2020年之前,远远早于ChatGPT诞生而打响的大模型竞赛的发令枪。

百度是其中一家。2019年,百度就发布了自研的预训练框架ERNIE,也就是今天的文心大模型,今天已经更新到ERNIE-4.0。值得一提的是,谷歌BERT与百度ERNIE名字取材于美国著名儿童节目《芝麻街》中的角色,两者是一对好友。

另一家早期自研预训练框架的大模型公司是智谱AI。智谱AI成立于2019年,并在2020年底开始自研预训练框架GLM。GLM与谷歌T5相似,也是基于Encoder-Decoder架构。2022年11月,斯坦福大学大模型中心对全球30个主流大模型进行了全方位的评测,GLM-130B是亚洲唯一入选的大模型。

百度与智谱AI之外,还有一部分闭源大模型没有公开自己的技术细节,代表性公司为Minimax、月之暗面等。有投资人对「甲子光年」表示,这几家也有自己的预训练框架,但无法准确核实。

总的来说,国内基于自研预训练框架的大模型公司数量较少,大约只有5家左右。

第二派大模型公司也从头开始做完整的预训练过程,但预训练框架是在开源框架——主要是Llama 2的基础上修改部分参数而来,可以称之为"模仿派"。

对于开源社区而言,这是一套非常正常的做法,开源的意义就是公开自己的研究成果,促进技术的交流与共享,让开源社区内更多的研究者受益。

Llama 2也是站在过去开源模型的肩膀上一步步发展而来。比如,Llama 2的模型架构中,Pre-normalization(预归一化)受GPT-3启发,SwiGLU(激活函数)受PaLM的启发,Rotary Embeddings(位置编码)受GPT-Neo的启发。其他模型也经常魔改这几个参数来做预训练。

零一万物创始人李开复表示:"全球大模型架构一路从GPT2-->Gopher-->Chinchilla-->Llama 2->Yi,行业逐渐形成大模型的通用标准,就像做一个手机app开发者不会去自创iOS、Android以外的全新基础架构。"

值得强调的是,模仿Llama 2并非代表没有核心竞争力。零一万物在文章中提到,模型训练过程好比做一道菜,架构只是决定了做菜的原材料和大致步骤,要训练出好的模型,还需要更好的"原材料"(数据)和对每一个步骤细节的把控(训练方法和具体参数)。

"原创派"与"模仿派",到底孰优孰劣?对于这件事,需要分开讨论。一句话总结来说,原创派赌的是未来,模仿派赌的是现在。

一位投资人对「甲子光年」表示:"Llama 2并非一个完美架构,还有较大的局限性,有机会做到GPT-3.5的水平,但是如何做到GPT-4的水平,目前还没有看到办法。如果底层技术架构一直受制于Llama 2,想要超越GPT,怕是机会很小。"

这位投资人所在的投资机构投资了多家大模型公司。在做投资决策时,自研预训练框架与否,也是他们的衡量标准之一。

一位AI公司的研发人员告诉「甲子光年」,自研预训练模型的优势在于扩展能力比较强,"如果基于开源,都是有版本限制的,比如Llama 2只有7B、13B、70B三个版本,再多就没有了,想再搞大规模一点,搞不了"。

不过,理想很丰满,但原创预训练架构的优势,目前还存在于理论阶段。短期来看,无论是自研还是模仿Llama 2,两者都处在GPT-3.5的水平,性能差距不大。

另一位AI投资人对「甲子光年」表示:"现阶段,开源框架基本已经达到了GPT-3.5的水平,所以,如果选择从头自研一个与开源框架水平一样的预训练框架,不如直接选择模仿Llama 2效率更高、稳定性更可靠,除非有能力自研一个达到GPT-4、甚至下一代GPT-5能力的模型。这里的能力指的是有技术能力,且有足够的资金持续投入,因为目前预期是GPT-5的训练可能需要3-5万张H100,成本在10-20亿美金。"

现阶段,大家比拼的并不是预训练框架的性能,而是工程化的能力,业内一般称为AI Infra——AI基础设施。

昆仑万维AI Infra负责人成诚将大模型发展分为了三个阶段:2020年之前的算法研究阶段,2020~2023年的数据为王阶段,以及2023年的AI Infra阶段。

他预测,未来大模型算法研究必然朝着Infra的方向去探索:稀疏化(Sparse Attention、Sparse GEMM / MoE)将会是2024年学术界与工业界的主战场。

薅GPT的数据羊毛

在预训练完成之后,来到了微调阶段。实际上,这一阶段才是大部分"套壳"大模型翻车的原因,它与数据集的质量有直接关系。

数据的使用贯穿在大模型预训练、SFT、RLHF的每个阶段。在预训练阶段,数据"在多而不在精"。由于预训练使用互联网公开数据,不同大模型最终所获得的知识储备是趋近的。

明显的差异点发生在微调阶段,数据"在精而不在多"。比如,Llama 2的研究人员在做微调时发现大部分第三方的SFT数据集多样性与质量都不足,因此他们自己构建了27540个高质量标注数据集,可以显著提高SFT的效果。

但不是所有的公司都像Meta一样财大气粗。有没有更高效的获取高质量数据集的方式?

有,通过"偷"ChatGPT等对话模型的数据。

这里的偷并非指盗窃,而是直接利用ChatGPT或GPT-4等对话模型生成的数据来做微调。这些合成数据,既保证了数据的多样性,又是经过OpenAI对齐后的高质量数据。

美国电商初创公司Rebuy的AI总监、深度学习博士Cameron R. Wolfe将这种大模型研究方式称为"模仿学习"(Imitation Learning),并表示模仿学习明显受到"知识蒸馏"(Knowledge Distillation)的启发。

知识蒸馏是一种机器学习中标准的模型压缩方法,它将复杂的模型看做"教师模型",把简单的模型看做"学生模型",通过老师教学生的方式将知识迁移过去。

在Meta发布了Llama 1系列模型后,迅速在开源社区催生了各类模仿模型的诞生,比较知名的包括由斯坦福大学、加州大学伯克利分校等高校机构推出的Alpaca、Vicuna、Koala,以及NomicAI推出的GPT4ALL,这些模型都用到了ChatGPT的对话数据来做微调。

值得一提的是,OpenAI在服务条款中明确禁止使用ChatGPT生成的数据开发与OpenAI竞争的模型。所以,上述模仿模型不能用于商业用途。

但事实上,各类商业模型都在通过"偷"数据的方式来走微调的捷径,这已经是公开的秘密,并且不限国别。

2023年12月,字节跳动、谷歌Gemini的"疑似套壳"事件正是来源于此。根据字节跳动的回应,2023年初部分工程师曾将OpenAI的API服务应用于实验性的模型研究,但并未上线,后来已经禁止该行为。从现实角度来说,字节跳动"只是犯了一个天下所有模型都会犯的错误"。

谷歌Gemini也是类似情况。由于缺乏高质量的中文数据集,谷歌极有可能通过文心一言获得大量的中文对话数据来做Gemini的"老师"。但是,或许因为追赶OpenAI心切,数据清洗、自我认知对齐等工作没有做到位,导致Gemini把老师文心一言当成了自己。

一位国产大模型公司的算法工程师向「甲子光年」吐槽道:"大家相互薅羊毛,要用,但要小心用,一不小心就尴尬了。"

把"壳"做厚才是竞争力

在预训练阶段模仿Llama 2、在微调阶段"偷"ChatGPT的数据,是两类产生"套壳"争议的主要场景,也是大模型训练过程中决定模型能力的关键场景。如果把范围扩展到模型的推理与应用,"套壳"的场景还会更多。

前语雀设计师,现AI助手Monica联合创始人Suki在即刻上分享了"套壳"的四重进阶:

一阶:直接引用OpenAI接口,ChatGPT回答什么,套壳产品回答什么。卷UI、形态、成本。

二阶:构建Prompt。大模型可以类比为研发,Prompt可以类比为需求文档,需求文档越清晰,研发实现得越精准。套壳产品可以积累自己的优质Prompt,卷Prompt质量高,卷Prompt分发。

三阶:Embedding特定数据集。把特定数据集进行向量化,在部分场景构建自己的向量数据库,以达到可以回答ChatGPT回答不出来的问题。比如垂直领域、私人数据等。Embedding可以将段落文本编码成固定维度的向量,从而便于进行语义相似度的比较,相较于Prompt可以进行更精准的检索从而获得更专业的回答。

四阶:微调Fine-Tuning。使用优质的问答数据进行二次训练,让模型更匹配对特定任务的理解。相较于Embedding和Prompt两者需要消耗大量的Token,微调是训练大模型本身,消耗的token更少,响应速度也更快。

如果把模仿Llama2架构做预训练也算进去,可以看做第五阶。这五重进阶,基本囊括了大模型"套壳"的每一个场景。

值得一提的是,上述行为能否被称为"套壳",在业内也说法不一。

算法工程师刘聪对「甲子光年」表示:"我觉得,只有一种情况算套壳——直接做API的买卖,比如说一些免费使用大模型的网站,用来收集数据、倒卖数据。其他情况其实都不算。在to B行业,要做行业化的解决方案,只会套壳不可能做到;就算是to C,如果有自己对产品的理解,也不能说是套壳。难道做大模型应用的都是套壳吗?"

"套壳这个词,贬义太严重。"刘聪说道。

脱离具体的场景谈论"套壳",都是贴标签的行为。当行业褪去了对套壳的污名化理解,把不同进阶的套壳行为看做一类正常的商业行为,才能更加理性客观地分析大模型的优劣。

只是,大模型厂商在宣传的时候,应当更谨慎地使用"自研",以及具体解释自研的内容。否则,只会加剧理解的困惑。

"套壳"有竞争力吗?Suki认为,一个AI应用产品如果停留在做一阶和二阶,注定是个门槛极低的产品,没有任何壁垒。而什么场景,何时以及如何使用三阶和四阶的能力,是个关键性的问题。

一位算法工程师告诉「甲子光年」,大模型真正关键的问题在于业务的成本结构和护城河,而不是套壳与否。

把成本降低、把"壳"做厚,自然就产生了竞争力。

本文原文来自甲子光年

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号