问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

AI模仿训练数据而非理解物理,字节跳动研究揭示生成模型局限

创作时间:
2025-01-21 20:17:09
作者:
@小白创作中心

AI模仿训练数据而非理解物理,字节跳动研究揭示生成模型局限

【导读】近年来,随着人工智能技术的快速发展,人们开始期待AI模型能够像人类一样理解和应用物理定律。然而,字节跳动研究院最新研究揭示了当前AI模型在这一领域的局限性。本文将深入探讨这项研究的发现及其对AI发展的启示。

人们对视觉语言人工智能模型寄予厚望,期待它们未来能够拥有更高的自主性和多功能性,并融入物理定律的原理,正如我们凭借早期经验自然而然地理解这些原理一样。

举例来说,儿童在参与球类运动时,会逐步领悟运动动力学以及重量、表面纹理对球体运动轨迹的影响。同样地,与浴缸、洒落的饮料、海洋、游泳池等涉及液体的日常场景互动,也会让我们对液体在重力作用下的行为模式形成丰富且可扩展的认知。

即便是那些不太常见的现象,如燃烧、爆炸以及建筑物在压力下的重量分布等,我们也能通过观看电视节目、电影或社交媒体上的视频,在潜移默化中有所了解和吸收。而在学术层面探究这些系统背后的原理时,我们其实是在“重塑”我们对它们的直觉(尽管可能原先对此并不了解)的心理模型。这一过程并未改变我们对这些现象的整体理解和框架。

相比之下,当前多数人工智能模型呈现出较高的“专业化”特征,许多模型要么针对特定应用场景的图像或视频数据集进行精细调整,要么完全从头开始训练,而并非旨在构建对普遍管理法规的深刻理解。尽管有些人工智能系统似乎能展现出对物理定律的理解,但实际上它们可能仅仅是在重现训练数据中的样本,而并未真正掌握运动物理等基础知识,因此难以根据用户提示生成既新颖又科学上合理的描述。

在生成式人工智能系统迈向产品化和商业化的关键时期,我们和投资者需保持审慎态度,仔细甄别新人工智能模型的宣传噱头与其实际功能的界限。

11月份,字节跳动研究院牵头的一项研究引起了广泛关注。该研究聚焦于Sora等“通用”生成模型的表面能力与实际能力之间的差距,并得出结论:在当前技术水平下,这些模型生成的输出更多是模仿训练数据中的示例,而非真正展现出对现实世界底层物理约束的深刻理解。

论文强调指出:

“[这些]模型容易受到训练集中‘误导性’示例的影响,导致它们倾向于以‘基于案例’的方式在新情境下进行概括。这种现象在大型语言模型中同样存在,表现为模型在解决新任务时会参考类似的训练案例。例如,一个以匀速直线运动的高速球数据为训练对象的视频模型,在通过水平翻转视频进行数据增强后,可能会生成低速球在初始帧后反向运动的场景,尽管这在物理上是不合理的。”

接下来,我们将深入研读这篇题为《使用LLM评估决策制定的世界模型》的论文。但在此之前,让我们先了解一下这些明显局限性的背景情况。

如果没有泛化能力,训练有素的人工智能模型只不过是一份昂贵的训练数据部分引用电子表格:找到合适的搜索词,就可以调出该数据的一个实例。在这种情况下,模型实际上充当了“神经搜索引擎”,因为它无法对所需输出产生抽象或“创造性”的解释,而是复制它在训练过程中看到的一些细微的数据变化。这就是所谓的记忆——一个有争议的问题,因为真正具有延展性和解释性的人工智能模型往往缺乏细节,而真正详细的模型往往缺乏原创性和灵活性。

如果模型的创建者没有不受限制的权利来使用这些数据,并且可以通过越来越多的提取方法来证明这些数据带来的好处,那么受记忆影响的模型重现训练数据的能力就是一个潜在的法律障碍。由于记忆,未经授权的数据痕迹可以通过多个训练系统以菊花链的形式持续存在,就像一个不可磨灭的、无意的水印——即使在机器学习从业者已注意确保使用“安全”数据的项目中也是如此。

世界模型在生成图像和视频领域尤其受关注。2023 年,RunwayML 开始了一项研究计划,研究此类模型的开发和可行性;DeepMind 最近聘请了广受好评的 Sora 生成视频的创始人之一来研究这种模型;Higgsfield 等初创公司正在大力投资用于图像和视频合成的世界模型。

生成视频AI系统的一个新兴发展趋势在于,它们能够学习基本的物理定律,包括运动规律、人体运动学特性(例如步态特征)、流体动力学等已知物理现象,这些现象在视觉上对人类而言是颇为熟悉的。一旦生成式人工智能达到这一重要里程碑,它将能够创造出超现实的视觉效果,如爆炸、洪水以及多种物体间的碰撞事件等。然而,如果人工智能系统仅仅是通过数千或数十万个描述此类事件的视频进行训练,那么它可能只在与用户目标查询相似的数据点上表现出色,能够逼真地重现训练数据。但若查询融合了过多在数据中未体现的概念,系统就会失效。此外,这些限制往往不会立即显现,除非有人用具有挑战性的组合来测试系统。这意味着新的生成系统或许能够创造出病毒式传播的视频内容,虽然令人印象深刻,但可能误导人们对系统能力和理解深度的判断,因为这些任务对系统来说并不构成真正的挑战。

例如,一个相对常见且广泛传播的事件(如“建筑物拆除”)可能多次出现在用于训练模型的数据集中,而该模型应具备一定的物理学知识。因此,该模型能够很好地概括这一概念,甚至能在从大量视频中学习到的参数范围内产生真正新颖的输出。这是一个分布内的例子,其中数据集包含许多对AI系统学习有益的有用示例。然而,若要求一个更加离奇或非同寻常的例子,例如“埃菲尔铁塔被外星入侵者炸毁”,则模型需要融合“冶金特性”、“爆炸特性”、“重力”、“风阻”和“外星飞船”等多个不同领域的知识。这是一个分布外(OOD)的例子,因为它结合了太多相互交织的概念,系统很可能无法生成令人信服的示例,或者会默认使用训练过的最近的语义示例——即使该示例与用户的提示不符。除非模型的源数据集包含描绘相同或类似事件的好莱坞风格CGI视觉特效,否则这种描述绝对要求系统对物理定律有很好的概括性和延展性理解。

这篇新论文是字节跳动、清华大学与以色列理工学院携手合作的成果,它不仅揭示了像Sora这样的模型并未真正内化确定性的物理定律,而且指出扩大数据集(过去18个月中常用的策略)在多数情况下并未带来实质性的改进。论文不仅探讨了特定物理定律外推的极限,例如运动物体在碰撞或路径受阻时的行为,还深入研究了模型的组合泛化能力,即如何将两个不同物理原理的表示融合为一个生成输出。研究人员选取了三条物理定律作为研究对象:抛物线运动、匀速直线运动和完全弹性碰撞。研究结果显示,像Sora这样的模型并未真正掌握物理定律,而是倾向于复制训练数据。此外,研究人员还发现,在推理过程中,颜色、形状等因素相互纠缠,导致生成的球体可能变为正方形,这显然是因为数据集示例中的类似运动以正方形而非球体为特征(参见文中嵌入的视频示例)。这篇论文在社交媒体研究领域引发了广泛关注,其结论指出:

“我们的研究表明,尽管扩展在Sora的更广泛成功中发挥了作用,但仅凭扩展并不足以使视频生成模型揭示基本的物理定律……“……[研究结果]表明,仅凭扩展无法解决OOD(Out-Of-Distribution,即分布外)问题,尽管它确实能在其他场景下提升性能。“我们的深入分析表明,视频模型的泛化更多依赖于参考类似的训练示例,而非学习通用规则。我们在这种‘基于案例’的行为中观察到了颜色、大小、速度和形状的优先顺序。“[我们的]研究表明,简单的扩展并不足以让视频生成模型发现基本的物理定律。”

当被问及研究团队是否找到了该问题的解决方案时,论文的一位作者表示:“遗憾的是,我们目前还没有找到。实际上,这可能是整个人工智能领域共同面临的挑战。”

研究人员使用 变分自动编码器 (VAE) 和 DiT 架构来生成视频样本。在此设置中,VAE 生成的压缩 潜在表示与 DiT 的 去噪 过程建模协同工作。

视频是在 Stable Diffusion V1.5-VAE 上进行训练的。架构基本保持不变,仅在流程末端进行了架构增强:“[我们保留了] 空间维度上大部分原始二维卷积、组规范化和注意力机制。“为了将这个结构扩展为时空自动编码器,我们将编码器的最后几个 2D 下采样块和解码器的最初几个 2D 上采样块转换为 3D 块,并使用多个额外的 1D 层来增强时间建模。”

为了实现视频建模,修改后的 VAE 与 HQ 图像和视频数据进行联合训练,并使用 SD1.5 架构原生的 2D 生成对抗网络 (GAN) 组件进行 3D 增强。使用的图像数据集是 Stable Diffusion 的原始来源LAION-Aesthetics,除了DataComp之外还进行了过滤。对于视频数据,从Vimeo-90K、Panda-70m和HDVG数据集中精选了一个子集。数据经过一百万步的训练,采用随机调整大小裁剪和随机水平翻转作为数据增强过程。

如上所述,随机水平翻转数据增强过程在训练旨在产生真实运动的系统时可能是一个负担。这是因为训练模型的输出可能会考虑物体的两个方向,并在尝试协商这些相互冲突的数据时导致随机反转(参见上面嵌入的视频)。另一方面,如果关闭水平翻转,模型就更有可能产生仅遵循从训练数据中学习到的一个方向的输出。因此,这个问题没有简单的解决办法,除非系统真正吸收来自原生版本和翻转版本的所有运动可能性——这是儿童很容易发展的能力,但对于人工智能模型来说,这显然是一个更大的挑战。

对于第一组实验,研究人员设计了一个 2D 模拟器来制作符合经典力学定律的物体运动和碰撞的视频,这为模型的评估提供了一个大量且受控的数据集,排除了现实世界视频的歧义。这些视频是使用Box2D物理游戏引擎制作的。上面列出的三种基本场景是测试的重点:均匀线性运动、完全弹性碰撞和抛物线运动。越来越大的数据集(从 30,000 个到 300 万个视频)用于训练不同大小和复杂程度的模型(DiT-S 到 DiT-L),其中每个视频的前三帧用于调节。

第一组实验中训练的不同模型的详细信息。研究人员发现,随着数据量的增加,分布内 (ID) 结果可以很好地扩展,而 OOD 生成并没有改善,表明泛化存在缺陷。

第一轮测试的结果。作者指出:“这些发现表明,在 OOD 场景中,扩展无法执行推理。”接下来,研究人员测试并训练了旨在展示组合泛化能力的系统,其中两个对比的运动结合在一起(希望)产生一个忠实于每个独立运动背后的物理定律的有凝聚力的运动。对于这一阶段的测试,作者使用了PHYRE模拟器,创建了一个 2D 环境,其中描绘了多个形状各异的物体在自由落体过程中以各种复杂的相互作用相互碰撞。第二次测试的评估指标是Fréchet 视频距离(FVD);结构相似性指数(SSIM);峰值信噪比(PSNR);学习感知相似性指标(LPIPS);以及人类研究(结果中表示为“异常”)。我们创建了三种规模的训练数据集,分别为 10 万个视频、60 万个视频和 300-600 万个视频。由于视频的复杂性增加,我们使用了 DiT-B 和 DiT-XL 模型,并使用第一帧进行调节。该模型以 256×256 的分辨率训练了一百万步,每个视频 32 帧。

打开网易新闻 查看精彩图片

第二轮测试的结果。该测试的结果表明,仅仅增加数据量是不够的:论文指出:“这些结果表明,模型容量和组合空间的覆盖范围对于组合泛化都至关重要。这一见解意味着视频生成的缩放定律应该侧重于增加组合多样性,而不仅仅是扩大数据量。”

最后,研究人员进行了进一步的测试,试图确定视频生成模型是否能够真正吸收物理定律,或者它是否只是在推理时记忆和重现训练数据。在这里,他们研究了“基于案例”的泛化概念,其中模型在面对新情况时倾向于模仿特定的训练示例,以及研究均匀运动的示例 - 具体来说,训练数据中的运动方向如何影响训练模型的预测。我们整理了两组训练数据,分别针对匀速运动和碰撞,每组数据均由描述速度在 2.5 到 4 个单位之间的匀速运动视频组成,前三帧用作条件。忽略速度等潜在值,在训练后,对可见和不可见场景进行测试。下面我们看到了均匀运动产生测试的结果:

打开网易新闻 查看精彩图片

均匀运动生成的测试结果,其中训练期间省略了“速度”变量。作者指出:“由于训练集存在很大差距,当初始帧显示中等速度时,模型倾向于生成速度较高或较低的视频,以类似于训练数据。”对于碰撞测试,涉及的变量要多得多,并且需要模型学习二维非线性函数。

打开网易新闻 查看精彩图片

碰撞:第三轮也是最后一轮测试的结果。作者观察到,“欺骗性”示例的存在,例如反向运动(即,球从表面弹起并改变其路线),可能会误导模型并导致其产生物理上不正确的预测。

如果非人工智能算法(即“烘焙”的程序方法)包含物理现象(例如流体、重力或压力下的物体)行为的数学规则,那么就会有一组不变的常数可用于精确渲染。然而,新论文的研究结果表明,在生成模型的训练过程中并没有发展出这种等效关系或对经典物理定律的内在理解,而且增加数据量并不能解决问题,反而会使问题变得更加模糊——因为系统在推理时可以模仿更多的训练视频。

打开网易新闻 查看精彩图片

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号