问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

对话智源王仲远:统一的多模态大模型是实现AGI的必经之路

创作时间:
作者:
@小白创作中心

对话智源王仲远:统一的多模态大模型是实现AGI的必经之路

引用
网易
1.
https://www.163.com/tech/article/JF8RA0VH00098IEO.html

导读:智源研究院最新发布的原生多模态世界模型Emu3,通过统一架构实现了多模态的统一理解与生成,这标志着多模态大模型发展的重要突破。智源研究院院长王仲远在接受采访时表示,Emu3证明了"下一个token预测"在多模态模型中的可行性,开创了多模态大模型的新训练范式。

10月21日,被智源冠以"今年最重要"的模型——原生多模态世界模型Emu3终于发布。仅基于下一个token预测,Emu3就实现了多模态的统一理解与生成。也就是说,无论是图像、文本还是视频模态的内容,都可以在Emu3一个系统中完成理解和生成——智源走通了一条用统一架构探索多模态的方法,给出了下一代多模态大模型的训练范式。

"科研没有一帆风顺,面对挫折挑战以及技术创新的不确定性,Emu3研发团队攻克了一个又一个技术难关,做到了第一次先于国际社会发布,率先验证了新的大一统原生多模态技术路线。"智源研究院院长王仲远难掩其兴奋。

对比实际效果,根据智源的评测,在图像生成、视觉语言理解、视频生成任务中,Emu3的表现超过了SDXL、LLaVA-1.6、OpenSora等开源模型。目前,智源已将Emu3的关键技术和模型开源。


图注:在图像生成任务中,人类评估得分Emu3高于SD-1.5与SDXL。在视觉语言理解任务中,12项基准测试的平均得分,Emu3领先于LlaVA-1.6与LlaVA-1.5。在视频生成任务中,VBench基准测试得分,Emu3优于OpenSora 1.2。

此前,ChatGPT的横空出世,验证了"下一个token预测"在大语言模型领域的可行性,但其在多模态模型中的适用性仍未表明。在Emu3发布之前,行业内多模态生成模型大多采用扩散模型(diffusion)或DiT架构,例如OpenAI的Sora以及国内的可灵、即梦等。这类模型将多模态生成与理解任务分别处理:生成任务通过扩散模型实现,而理解任务则以语言模型为核心,映射视觉信号至语言模型,所以是一种组合式的模型。

而智源发布的Emu3,则是证明了"下一个token预测"在多模态模型中的可行性,实现了从0到1的技术突破。这个可以被称为多模态大模型的"GPT-3时刻",表示这一技术路线可能开创多模态大模型的新训练范式:"Attention is all you need开启了Transformer技术路线,那么,Next-token is all you need可能会成为多模态大模型的新路径。"王仲远在与网易科技等媒体的沟通会上这样说道。

"现在,多模态大模型还在不断探索能力上限。智源探索出了Emu3这样一条技术路线,那么接下来需要展示,也期待在多模态领域的ChatGPT的时刻。"


图注:Emu3在海外社媒中的反应

虽然目前关于通向AGI的道路仍是非共识,但像人类一样,能够理解并模拟物理世界的"世界模型",已被行业内大多数视为通向AGI的关键路径之一。OpenAI前首席科学家、联合创始人Ilya Sutskever曾多次表示,只要能够非常好的预测下一个token,就能帮助人类达到通用人工智能(AGI)。

站在Emu3发布节点,环顾四周:用于训练的文本数据逐渐枯竭,数据墙林立;硬件水平受限下,算力能力短时间很难突破;被奉为行业底层逻辑的Scaling law,也被更多人质疑是否会在模型变大的过程中而失效。然而,文本数据之外,图像、视频、音频乃至真实世界的数据是千倍于文本的巨量潜在资源。怎么将更加海量的数据有效集成到大模型中进行训练?大语言模型的基础设施能否在多模态领域复用?Scaling law到底有没有失效?一个原生的多模态大模型对行业意味着什么?通向AGI的道路,智源的下一步又会如何走?瞄向"大问题",坚持做原始创新的智源,用Emu3给出了他们的答案。

Emu3的技术突破与创新

Emu3的研发初衷和目标,一方面体现了智源研究院坚持做原始创新,做高校做不了、企业不愿意做的研发。Emu3被视为整个大模型发展技术路线上必须攻克的技术方向:原生多模态、统一理解和生成。另一方面,为多模态大模型的训练范式指明方向。Emu3的意义很可能在未来一两年内被更强烈地感知。

在Emu3的研发过程中,团队在图像生成、视频生成能力方面取得了大幅的提升。尽管Emu3的效果已经超越了很多开源模型,但还没有达到每一个方向上的最优。这与资源投入、训练时间等因素有关。然而,团队对Emu3充满信心,因为其能力相比6月份已经有了大幅的提升。Scaling law在语言模型上是否失效的争论已经开始,但在多模态大模型上还远没有打开。

Emu3与市场上现有的多模态大模型有本质区别。现有的多模态大模型没有类似Emu3的技术路线,Emu3是对已有技术路线的颠覆。这种颠覆并非突然出现,而是研究界、学术界、产业界长期探索的结果,智源率先实现了这一突破。

Emu3的重要意义在于让语言模型的技术路线和多模态的技术路线不再是分叉关系,而是统一关系。通过使用与大语言模型相似的自回归(Autoregressive)架构,Emu3可以极大地避免资源浪费。Emu3将文本、图像、视频各种模态的信息通过统一的tokenizer映射到一个离散空间,通过自回归方式进行统一训练,相当于发明了一种文字、图像、视频统一的"新语言",这种语言能够在统一的空间里表达。

Emu3的技术新范式与过去范式的主要区别在于:第一,多模态肯定是大模型发展的下一个重要方向。现在的多模态,或者是基于diffusion架构来做生成,或者是组合式模型,即把语言模型与CLIP结合的范式。Emu3所探索的是把生成和理解统一,把文字、图像、视频从原生上,从最开始训练的时候就统一,并且具备扩展性,而且使用的是自回归的方式。这种类似于语言大模型的训练架构,能够解决大一统的问题。第二,能够复用现有的硬件基础设施。Emu3验证了这样的训练方式和框架,很有可能是下一代多模态大模型的训练范式。

Emu3的架构特点与优势

Emu3在便利性方面的体现是只需要一个模型就能解决所有事情,即"世界在一个模型中,一个模型理解整个世界"(One for world, world in one)。Emu3的可用性与大语言模型相当,这是其重要贡献之一。Emu3使用大语言模型的一些硬件就能实现多模态大模型的训练和推理。当然,现阶段还没有进行特别多的工程化开发,智源将统一的SFT模型在开源社区发布,这样专业人士能体验到,并且能够做进一步的训练或者调优和各种能力的阐释。

大模型工业化,真正变成产品,是一个完整的体系,依赖底层的硬件。现在的底层硬件,GPU的芯片,基本围绕像Transformer这样的架构进行优化。Diffusion架构需要的硬件优化可能更多,每一个硬件的迭代周期至少要18个月到两年的时间。走通基于自回归统一多模态的技术路线之后,可极大复用现有的基础设施,技术演化有可能会加速。Emu3证明了自回归的技术路线至少是可行的,后面是进一步深耕,包括工程化。特别呼吁产业生态能够一起训练Emu3下一代应用系列的模型。

Emu3的局限性与未来方向

Emu3的局限性在于,尽管DiT技术路线已经走通,从确定性的角度来讲,企业会更愿意复现这样的技术路线。基于自回归是更下一代的技术路线。今天Emu3的发布,更多的证明在自回归这条技术路线上的突破。业内很多的企业、研究机构在关注这条技术路线的突破,本质上也是摸索下一代技术路线到底应该怎么走。智源有历史使命和职责去探索一条技术路线,期待能够为整个行业指明方向。

Emu3下一步的规划和需要提升的能力包括:例如,做更长的时间视频预测。Emu3的技术路线理论上可以一直预测,生成下去。输入的窗口如何变大,输出如何变长,这些大语言模型已经正在走过很多的路径,对于多模态大模型有参考意义,这些问题我们会去探究。

对于通向AGI的路径,目前行业没有共识。关于语言模型能不能达到AGI,现在有很多的争论。OpenAI的o1确实证明了大语言模型加强化学习能够进一步的提升模型的智能化的水平,但它到底能不能通往AGI仍然有争论。像Lecun就认为大语言模型不足以通向AGI。认为AGI是要真正像人类一样,不只是思考推理,还必须是要多模态的。多模态是AGI的必经之路,尤其是人工智能进入物理世界,进入各行各业的必行之路。

智源未来三到五年的重点是继续研发原生多模态世界模型Emu系列,解决更大规模的数据、算力以及训练。统一多模态基座大模型是人工智能进入到物理世界非常重要的基座。多模态具身大脑也是研究院正在做的研究。今年也看到了诺贝尔的物理学奖给了Hinton教授,化学奖是给了DeepMind团队。AI for Science也是智源非常关注的重要研究方向。

从C端传播的角度来说,APP肯定是最好的方式,未来,有没有计划和一些其他合作伙伴推出一些C端APP?当前市场上的语言模型APP已经开始基于百亿模型在使用,这个前提是有了千亿、万亿模型,达到更高的性能,百亿模型效果随之更好。我想再一次强调Emu3架构的优越性,将来多模态大模型都能够非常容易使用,这是Emu3模型的意义。现在,多模态大模型还在不断探索能力上限。智源探索出了Emu3这样一条技术路线,那么接下来需要展示,也期待在多模态领域的"ChatGPT"的时刻。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号