AI大模型专题:从世界模型看算力需求变化
AI大模型专题:从世界模型看算力需求变化
Sora作为首个展示"涌现"能力的视频生成模型,其成功标志着计算机视觉领域的重要突破。通过引入Diffusion Transformer架构,Sora不仅实现了高质量的视频生成,还验证了算力提升对视频生成效果的积极影响。本文将深入探讨Sora的技术创新及其对算力需求的影响。
核心观点
Sora是第一个表现出"涌现"能力的视频生成模型:随着模型规模增大而出现“理解世界”的能力。虽然许多 LLM,如ChatGPT 和 GPT-4,表现出涌现能力,但在 Sora 出现之前,展示类似能力的视觉模型一直很少。根据 Sora 的技术报告,它是第一个表现出确认的涌现能力的视觉模型,标志着计算机视觉领域的一个重要里程碑。
Sora 的成功源于 Diffusion Transformer 架构的引入,和过去多年高质量数据的积累。
从架构上看,视频生成模型的技术路线开始收敛,Sora的 DiffusionTransformer 架构证实了有效 soale-up 也即是增加算力能够对提升视频生成的精细度和效果,是视频生成领域的"GPT-3时刻"。类似于 GPT-3证明了更大的训练量、模型参数量、Token 数量,训练效果越好。引入了 Transformer 的 Sora 也表现出了同样的趋势,0penAl 进行了 32x训练量和 1x、4x 训练量的对比,从结果上看,32x 训练量的生成效果远远强于 1x和 4x 的生成效果。在 Sora 发布后Google、Snap 也发布了采用类似技术的视频生成模型,确定了 Diffusion Transformer 的视频生成路线,并且算力的需求会大大提升。
从数据上看,高质量的数据对视频生成模型的训练至关重要,Sora 利用自有工具增强训练数据集与提示工程。OpenAl训练了专用的视频字幕模型来为视频生成详细描述,生成高质量的视频-字幕对,用于微调 Sora 以提高其指令跟随能力。同时为了确保用户提示与训练数据中这些描述性标题的格式保持一致,Sora 执行了一个额外的提示扩展步骤,即调用 GPT-4V 模型将用户输入扩展到详细的描述性提示。
我们认为,随着DiffusionTransformer 类模型大量应用于围像及视频生成,推理需求将大幅增加,与 LLH 推理更需要内存带宽的资源需求不同,视觉模型推理将对芯片本身算力和内存容量提出更高要求。Sora 的 DiT 和大语言模型在推理时的逻辑不同,Diffusion 需要约 20 Steps 优化过程,每次均是计算的完整的 patch,访存需求也会大大下降,从 LLM 推理的访存密集型场景转变成算力密集型场景。
Sora 高质量的视频生成对影视和游戏行业的影响是最直接而深远的,降低制作门槛并且很有可能重塑影视和游戏制作的流程与格局。高质量的视频生成对于影视行业的工作流会有深远的影响,前期可以替代掉分镜以及概念片制作。后期可以取代部分特效制作。对于游戏行业,游戏开发人员可能会使用它来生成自定义的视觉效果,甚至是从玩家叙述中生成角色动作。
Sora 在生成视频的质量、灵活性和时长上与之前的模型有代际差距
较长的视频生成时长:Sora 可以生成长达 60 秒的高保真度视频。对比之前的视频生成模型,Pika1.0 可以生成 3s-7s 的视频,Runway 的 Gen-2 可以生成 4s-18s 的视频。
灵活的分辨率:得益于其训练数据的灵活性,Sora 可以生成 1080P 的任何比例视频,而不是像之前的模型在生成非原生训练比例时会出现画幅的消失。
高保真渲染:在模拟数字世界时,如 Minecraft 游戏,Sora 能够实现高保真的渲染效果使得生成的视频内容看起来就像真实游戏画面一样。
存在 Scaling Law:更高的算力、更大的模型规模、patch 数量的增加能对生成视频的效果有明显的正向提升。
三维空间连贯性:Sora 模型能够生成具有正确空间关系和动态相机运动的视频内容,确保视频中的物体在三维空间中保持连贯的运动。
动态相机运动:模型能够模拟包含动态相机运动的视频,使得视频中的人物和场景元素能够随着相机的移动或旋转而相应地改变位置。
空间一致性:Sora 确保视频中的物体在空间上保持一致性,即使在复杂的场景变换中也能保持正确的相对位置和运动轨迹。
长期连续性和物体持久性:Sora 能够在视频中保持角色和物体的长期一致性,即使在视频中出现遮挡或离开画面的情况,也能保持其存在和外观。同时,它能够生成具有连贯故事线的视频,确保视频中的事件和动作在时间上是连续的。
任务场景丰富;除了视频生成以外,Sora 还可以用于其他任务,如图生视频、文生图片文+图生视频、视频拓展、视频编辑、连接两个不同视频等。
文生视频是个年轻的方向,最早能追溯到15年的基于 GAN 生成模型
文生视频是个年轻的方向,面临着多方面的独特挑战。主要有1)计算成本高昂:确保帧间空间和时间一致性需要大量的计算资源,导致训练成本高昂:视频信息的复杂性进一步加剧了计算成本,需要更强大的计算能力来处理海量数据。2)视频信息复杂:视频数据形式多样,分辨率和比例各异,包含空间、时间、内容等多维信息;如何找到一种统一的表示形式,以有效地进行大规模训练,是文生视频技术需要解决的关键问题。3)缺乏高质量数据集:现有的文生视频多模态数据集数量有限,且标注程度不够,难以满足模型训练的需求。4)视频描述的模糊性:如何用文本准确描述视频内容,是文生视频技术面临的另一个难题,简短的文本提示难以完整描述视频,而复杂的描述又会增加模型的训练难度。
GAN 和 VAE 时代
文生视频模型最早能追溯到 2015 年。早期研究主要使用基于 GAN(生成对抗网络)和 VAE (变分自编码器)的方法在给定文本描述的情况下自回归地生成视频帧 (如 Text2Filter 及 TGANs-C)。虽然这些工作为文生视频这一新计算机视觉任务奠定了基础,但它们的应用范围有限,仅限于低分辨率、短距以及视频中目标的运动比较单一、孤立的情况。
Transformer Based
受文本 (GPT-3) 和图像 (DALL-E) 中大规模预训练 Transformer 模型的成功启发,文生视频研究的第二波浪潮采用了 Transformer 架构。Phenaki、Make-A-Vide、NUWA、 VideoGPT 和 CogVideo 都提出了基于 Transformer 的框架,而 TATS 提出了一种混合方法, 从而将用于生成图像的 VQGAN 和用于顺序地生成帧的时间敏感 Transformer 模块结合起来。在第二波浪潮的诸多框架中,Phenaki 尤其有意思,它能够根据一系列提示 (即一个故事情节) 生成任意长视频 。 同样 , NUWA-Infinity 提出了一种双重自回归 (autoregressive over autoregressive) 生成机制,可以基于文本输入合成无限长度的图像和视频,从而使得生成高清的长视频成为可能。
Diffusion Based
第三波文生视频模型浪潮主要以基于扩散的架构为特征。扩散模型在生成多样化、超现实和上下文丰富的图像方面取得了显著成功,这引起了人们对将扩散模型推广到其他领域(如音频、3D ,最近又拓展到了视频) 的兴趣。这一波模型是由 Video Diffusion Models (VDM) 开创的,它首次将扩散模型推广至视频领域。然后是 MagicVideo 提出了一个在低维隐空间中生成视频剪辑的框架,据其报告,新框架与 VDM 相比在效率上有巨大的提升。 另一个值得一提的是 Tune-a-Video,它使用单文本 - 视频对微调预训练的文生图模型, 并允许在保留运动的同时改变视频内容。随后涌现出了越来越多的文生视频扩散模型,包 括 Video LDM、Text2Video-Zero、Runway Gen1、Runway Gen2、Stable Video Diffusion 以及 NUWA-XL。
视频生成模型的前沿:把卷积网络卷出了 Diffusion Model
这些模型缺点比较明显,比如支持视觉数据的类别少、视频时间短、视频尺寸固定等。当时还在 Meta 实习、现任 Sora 项目的负责人之一的 William Peebles 于 23 年 3 月发表的 《Scalable Diffusion Models with Transformers》中的 Diffusion Transformers (DiTs) 对新的视频生成路线起到了关键的作用。DiT 的主要工作是替换了 Stable Diffusion 中 的 UNet 为 Transformer,证明了在图像生成领域的 Scaling Law,也即是减少 patch size 增加参数量对生成图像有较大的积极影响。
本文原文来自国金证券