智源Emu3发布:统一多模态大模型的突破与未来展望
智源Emu3发布:统一多模态大模型的突破与未来展望
导读:智源研究院最新发布的原生多模态世界模型Emu3,通过统一架构实现了多模态的统一理解与生成,这一突破性进展不仅超越了现有开源模型的表现,更为下一代多模态大模型的训练范式开辟了新路径。
10月21日,智源研究院发布了被冠以“今年最重要”的模型——原生多模态世界模型Emu3。这一模型的发布标志着在多模态领域取得重大突破,实现了从0到1的技术跨越。
图注:在图像生成任务中,人类评估得分Emu3高于SD-1.5与SDXL。在视觉语言理解任务中,12项基准测试的平均得分,Emu3领先于LlaVA-1.6与LlaVA-1.5。在视频生成任务中,VBench基准测试得分,Emu3优于OpenSora 1.2。
Emu3的技术突破与创新
在Emu3发布之前,多模态生成模型主要采用扩散模型(diffusion)或DiT架构,这类模型将生成与理解任务分开处理。而Emu3的创新在于证明了“下一个token预测”在多模态模型中的可行性,实现了真正的统一理解和生成。
智源研究院院长王仲远表示:“Emu3的效果已经超越了很多开源模型,虽然还没有达到每一个方向上的最优,但其能力比6月份有了大幅提升。更重要的是,Scaling law在多模态大模型上还远没有打开,这为未来的发展留下了巨大的想象空间。”
Emu3的核心优势
Emu3的核心优势在于其统一的架构设计。通过将文本、图像、视频等不同模态的信息映射到一个统一的离散空间,并采用Autoregressive方式进行训练,Emu3实现了真正的多模态统一处理。
王仲远强调:“Emu3的重要意义在于让语言模型的技术路线和多模态的技术路线不再是分叉的关系,而是统一的关系。这种统一不仅避免了资源浪费,还能够复用现有的硬件基础设施。”
Emu3的未来展望
对于Emu3的未来发展方向,王仲远表示:“我们期待在多模态领域的‘ChatGPT时刻’。Emu3已经证明了autoregressive技术路线的可行性,接下来我们将继续探索更长视频预测等能力,同时也在关注AI for Science等前沿领域。”
智源研究院将继续深耕Emu系列模型的研发,致力于解决更大规模的数据、算力以及训练问题。统一多模态基座大模型作为人工智能进入物理世界的重要基础,将在未来发挥关键作用。
本文原文来自网易科技