问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

CVPR 2024 | 面部+肢体动画,一个框架搞定从音频生成数字人表情与动作

创作时间:
作者:
@小白创作中心

CVPR 2024 | 面部+肢体动画,一个框架搞定从音频生成数字人表情与动作

引用
1
来源
1.
https://cloud.tencent.com/developer/article/2408071

AI数字人面部与肢体的驱动算法作为数字人研发的重要环节,可以大幅度降低VR Chat、虚拟直播和游戏NPC等领域的驱动成本。近年来,基于语音生成面部、肢体和手部动作的各类独立基线模型已经逐渐成熟。然而,直接将不同模型的动画结果混合会导致最终全身整体的动画不协调。研究者逐渐考虑使用统一的框架来同时生成面部表情和肢体动作。

然而,尽管研究社区在面部的表情和肢体的动作上分别存在统一的数据标准,已有的基线模型仅在独立的数据格式上进行训练和评估,比如FLAME(面部)和AMASS(肢体)。社区仍然缺少面向全身的,格式统一的训练数据和基线模型。

针对此问题,东京大学、清华大学、德国马普所的研究者联合提出了EMAGE,一个从音频和动作的掩码中生成人体全身动作的框架,包括面部、局部肢体、手部和全局运动。

EMAGE研究论文包含BEAT2与EMAGE两部分

用户可以自定义动作的输入,在接受预定义的时序与空间的动作输入方面具有灵活性,最终可生成完整的、与音频相同步的结果,EMAGE输出全身动作的效果属于业界SOTA。

  • BEAT2:即BEAT-SMPLX-FLAME,是语音与基于网格的动作数据的全身数据集,共有60小时的数据。BEAT2将SMPLX的肢体与FLAME的面部参数相结合,并进一步解决了头部、颈部和手指等运动的模型问题,为研究社区提供了一个标准化且高质量的3D动捕数据集。

左:将精调后的SMPLX肢体参数结果(Refined Moshed)与BEAT的原始骨架数据(BEAT)、使用AutoRegPro的重定向数据(Retargeted)以及Mosh++的初始结果(Moshed)进行比较,精调的结果拥有正确的颈部弯曲、适当的头颈形状比例和详细的手指弯曲。

右:将原始BEAT中的混合表情权重可视化,与ARKit的基础脸部模板(BEAT)、基于线性Wrapped的方法(Wrapped Optimum)以及人工PCA映射FACs的表情优化(Handcraft Optimum)进行比较。最终的人工映射优化基于FLAME混合表情,实现了准确的唇动细节和自然对话时的口型。

  • EMAGE:在训练过程中利用了肢体动作掩码的先验知识来提高推理性能。EMAGE使用了一个音频与动作掩码的转换器,有效提高了音频生成动作和动作掩码下的动作重建的联合训练的效率,从而有效地将音频和肢体动作的提示帧编码进网络。动作掩码的肢体提示帧分别被用于生成面部和肢体动作。此外,EMAGE自适应地合并了音频的节奏和内容的语音特征,并利用身体各个部位(共计四种)的组合式VQ-VAEs来增强结果的真实性和多样性。

EMAGE是一个支持用户自定义输入,带有动作掩码与音频输入的全身动作建模框架,使用新提出的数据集BEAT2(BEAT-SMPLX-FLAME),生成面部表情、局部身体动作、手部动作和全局平移运动时,是以音频与动作掩码作为基准联合训练。灰色身体部位是用户输入的肢体提示帧,蓝色表示整体的网络输出。

算法细节

EMAGE采取了两种训练路线:动作掩码重建(MaskedGesture2Gesture,即MG2G)和使用音频的动作生成(Audio2Gesture,即A2G)。

  • MG2G:通过基于Transformer的动作的时空编码器与基于交叉注意力的动作解码器,来对肢体提示帧进行编码。

  • A2G:利用输入的肢体提示与独立的的音频编码器,对于经过预训练的面部和肢体潜征进行解码。

可切换的交叉注意力层在上述过程中作为关键组件,对于合并肢体提示帧和音频特征起重要作用。此融合使特征被有效地解耦并可以被用于动作的解码。动作潜征被重建之后,EMAGE使用预训练的VQ-Decoder来对于面部和局部肢体运动进行解码。

此外,预训练的全局运动预测器也被用来估计全身的全局平移,使得模型生成逼真并且连贯动作的能力得到加强。

CRA和VQ-VAEs的与训练模型的细节

左图:内容节奏注意力模块(CRA)将音频的节奏(初始语音和振幅)与内容(来自文本的预训练词条嵌入)自适应地相融合。这种架构可以让特定帧更有效地基于音频的内容或节奏,生成更加具有语义的动作。

右图:通过对于面部、肢体上半身、手部和肢体下半身的分别重建,来预训练四个组合式VQ-VAEs模型,以更加明示地将与音频无关的动作相解耦。

前向传播网络对比

  • 直接融合模块(a):将音频特征与未精调的肢体特征合并,仅基于位置嵌入重组音频特征。

  • 自注意力解码器模块(b):为MLM模型中所采用的模块,只限于自回归推理的任务。

  • EMAGE(c):融合(a)与(b)的长处,同时使音频特征融合更有效,且可以自回归解码。

参考资料

本文原文来自机器之心

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号