问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

ECCV 2024 | 南洋理工人体动作生成新范式:统一多模态的动作生成大模型

创作时间:
作者:
@小白创作中心

ECCV 2024 | 南洋理工人体动作生成新范式:统一多模态的动作生成大模型

引用
网易
1.
https://www.163.com/dy/article/JH189V0Q0511CQLG.html

本文介绍了南洋理工大学在ECCV 2024上提出的一种新的动作生成大模型——Large Motion Model (LMM)。LMM是首个支持多种动作生成任务的动作大模型,能够支持多种类型的控制信号来生成统一协调的3D动作。

论文标题:Large Motion Model for Unified Multi-Modal Motion Generation

论文链接:https://arxiv.org/pdf/2404.01284

代码链接:https://github.com/mingyuan-zhang/LMM

项目主页:https://mingyuan-zhang.github.io/projects/LMM.html


图 1. Larege Motion Model 性能展示

一、背景介绍

随着生成技术和3D视觉技术的发展,动作生成技术在近几年受到了很多研究者的关注。动作生成任务的输出往往是可以驱动3D人物模型的控制序列,一般以3D关键点序列、骨骼旋转角序列为主。其控制信号的类型各异,从而衍生出了不同的动作生成任务。例如文本驱动动作生成任务,音乐驱动舞蹈生成,动作预测任务等。这些任务具有相似的输出类型,但是有着不同的控制信号。这启发着我们构建统一的动作生成大模型是一个很有吸引力的技术方向,也是很有希望达成的目标。然而在通往这个技术目标的路上有三个重要的挑战:

  1. 数据设施:现有数据集往往只有单一控制信号,并且这些在学术界公开的数据往往规模都很小。更严峻的是,不同数据集对动作数据的刻画方法是不一样的,这意味着我们很难同时在不同数据集上进行训练。

  2. 结构设计:我们需要设计一个能够支持多种不同模态信号的统一生成框架,其中多模态的对齐,以及对于不同动作数据格式的支持都是结构设计部分绕不开的难题。

  3. 训练策略:如何让模型在不同帧率、不同数据格式上能够学到统一通用的动作先验,并且将其在各个子任务上充分地发挥出来,是构建高效动作大模型的重要课题。

本文依次提出了这三个挑战的解决方案,从而构建了首个统一多模态的动作生成大模型LMM。

二、数据设施

我们首先构建了一个数据基础设施MotionVerse,用于支持后续多模态动作大模型的训练。这里我们依次解决了不同生成任务形式的统一,和不同数据格式的统一。

为了统一这些任务的输入形式,我们提出一种通用的描述形式。每个生成任务的控制信号都是由条件特征,和输入掩码构成。条件特征可以是文本、音乐、语音、视频、动作类别等,对应不同的命令类型。输入掩码描述了哪些部分的动作序列是给定的。例如动作预测是给定前面一些帧,动作中间补全则是给定前面和后面的一些动作数据要求补全中间的内容。通过这种格式,我们可以将不同类型的任务以统一的形式存储下来。表1左边展示了不同主流动作生成任务在统一格式下的具体形式,右边展示了MotionVerse的数据构成。


表1:统一任务框架和MotionVerse 的数据构成


图2:MotionVerse的数据处理流程

针对动作数据格式不一致的问题,我们设计了如图2所示的管线。我们以SMPL-X[1]的骨骼标注为标准,将不同数据的关键点格式变成SMPL-X的格式,并在之后进一步处理成TOMATO[2]动作表征。然而这里还有一个挑战是,不同数据集的关键点标注可能会有很大程度的缺失。例如TED Gesture++数据没有下半身、手部动作等。

为了解决这个问题,我们将人体数据划分成十个部分,并对整体缺失的部分进行标注,要求后续模型在训练时能够知道哪些身体部位是缺失的。对于条件特征,我们使用ImageBind[3]模型来将所有类型的条件转换成统一的特征序列,从而可以将这些控制信号尽量先映射到相同的特征空间下,有利于模型后续的学习。

三、结构设计

模型结构设计部分我们以FineMoGen[4]为基础,其中生成算法采用了扩散模型,并且以Transformer为模型底座。我们对里面的注意力模块进行了进一步升级,提出了新的ArtAttention,用于支持多模态输入和针对数据有缺失情况的支持。


图3:ArtAttention 网络结构

整体的注意力结构也是分成了两支:空间注意力和时间注意力。在空间注意力的部分,我们模型能够利用不同身体部位的特征进行相互之间的优化,让身体各个部位更加协调。时间注意力部分我们升级了FineMoGen里的建模方案,引入真实世界的时间,用于针对不同帧率的动作数据学出更统一的动作先验。

四、训练策略


图4:训练策略与推理策略

我们的训练过程分为两个阶段。在预训练阶段中,我们去掉所有条件特征,让模型关注于动作先验的提取。我们也引入了数据增强策略,包括对动作序列帧率的降采样和对不同时刻、不同部位的随机掩码。在这样的增强策略下,之前有缺失的动作数据也能够更好的融入整个学习过程。在第二个微调阶段,我们让模型接受条件特征,从中学会条件特征与动作特征的映射关系。测试时,我们可以给定多种不同的条件特征,以及针对动作预测、动作中间补全等任务的上下文条件,从而实现对各种动作生成任务的支持。

五、实验结果

我们在九个数据集上评估了LMM的效果,本文展示其中的一部分。实验结果(表2、3)展示了我们提出的LMM框架在各个任务上都能达到很出色的效果。


表 2. 不同方法在HumanML3D 测试集上的表现


表 3. 不同方法在AMASS-BMLrub 和 3DPW 测试集上的表现


图5:多条件动作生成


图6:更多可视化例子


图7:3D 动作生成引导视频生成

我们所构建的多模态动作生成大模型也促进了更多的动作生成任务应用形式。如图5所示,我们可以在传统动作预测,动作补全中我们也可以额外指定文本描述,从而定制化动作预测、动作补全的结果。此外,我们也可以将文本描述与音频结合起来,让数字人随着音乐的律动来完成给定的文本描述(图6)。另一种应用的方向是结合现在人物视频生成的范式。用户可以先利用我们的动作生成大模型来定制化自己想要的人物动作,在用相机参数投影后用于引导2D视频生成,从而提升人物视频生成的可控性(图7)。

引用:

[1] Georgios Pavlakos, Vasileios Choutas, Nima Ghorbani, Timo Bolkart, Ahmed A. A. Osman, Dimitrios Tzionas, and Michael J. Black. Expressive Body Capture: 3D Hands, Face, and Body from a Single Image. CVPR 2019

[2] Shunlin Lu, Ling-Hao Chen, Ailing Zeng, Jing Lin, Ruimao Zhang, Lei Zhang and Heung-Yeung Shum. HumanTOMATO: Text-aligned Whole-body Motion Generation. ICML 2024

[3] Rohit Girdhar, Alaaeldin El-Nouby, Zhuang Liu, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin, Ishan Misra. IMAGEBIND: One Embedding Space To Bind Them All. CVPR 2023

[4] Mingyuan Zhang, Huirong Li, Zhongang Cai, Jiawei Ren, Lei Yang, Ziwei Liu. FineMoGen: Fine-Grained Spatio-Temporal Motion Generation and Editing. NeurIPS 2023.

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号