问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

斯坦福AI情感理解新突破:李飞飞团队揭秘

创作时间:
作者:
@小白创作中心

斯坦福AI情感理解新突破:李飞飞团队揭秘

引用
CSDN
12
来源
1.
https://blog.csdn.net/amusi1994/article/details/144598648
2.
https://www.aibase.com/news/14083
3.
https://36kr.com/p/3133617086765829
4.
https://www.163.com/dy/article/JCPEBQJC0511AQHO.html
5.
https://www.sohu.com/a/835720546_122105141
6.
https://www.showapi.com/news/article/67626b174ddd79f11a06183d
7.
https://alumni.princeton.edu/stories/fei-fei-li-woodrow-wilson-award
8.
https://hub.baai.ac.cn/view/41684
9.
https://justoborn.com/fei-fei-li/
10.
https://radical.vc/fei-fei-li-with-spatial-intelligence-ai-will-understand-the-real-world/
11.
https://encord.com/blog/top-10-multimodal-datasets/
12.
https://dl.acm.org/doi/10.1145/3689646

斯坦福大学研究团队近日在多模态模型领域取得重大突破。该团队由李飞飞、Gordon Wetzstein和Ehsan Adeli领导,开发出一种新型多模态语言模型,能够同时处理语音、文本和动作等多种类型的数据,并且首次实现了对隐含情绪的识别和理解。

这一突破性研究的核心在于一个创新的多模态语言模型框架。该模型能够接收音频、动作和文本等多种输入形式,并输出相应的模态数据。通过采用生成式预训练策略,模型在多个任务上展现出卓越性能。例如,在协同语音-手势生成任务中,不仅超越了现有技术水平,还大幅减少了训练所需数据量。

人类的沟通交流充满了多模态的信息。为了与他人进行有效沟通,我们既使用言语语言,也使用身体语言,比如手势、面部表情、身体姿势和情绪表达。因此,为了理解和生成人类动作,理解这些多模态的行为至关重要,而且这一研究方向最近受到的关注也越来越多。

而多模态语言模型看起来颇具潜力,可将多种模态的不同任务统一在一个框架下。近日,斯坦福大学李飞飞、Gordon Wetzstein 和 Ehsan Adeli 领导的一个团队也在这方面做出了贡献,探索了语音 - 文本 - 动作生成任务。并且他们还提出了一个全新的多模态语言模型,可以实现富有表现力的动作生成和理解。

这个模型可以同时接受音频和文本输入来生成动作。比如你指定这个人下半身的动作是绕圈走,并根据语音生成上半身动作,它就会配合你生成对应的动作。更重要的是,它支持动作编辑,可以将原本的绕圈走动更换为其他动作序列(如后退、跳跃、前跑、后跑等)。更换了动作指令,模型生成的动作依然自然流畅,并与语音内容保持良好的协调性。

很显然,这项研究对于李飞飞的长远「空间智能」目标大有裨益。这项研究有三位共同一作:Changan Chen(陈昌安)、Juze Zhang 和 Shrinidhi K. Lakshmikanth。

论文概览

首先,该团队指出,为了统一人类动作的言语和非言语语言,语言模型是至关重要的。他们给出了三点原因:

  • 语言模型能自然地与其它模态连接起来;
  • 语音富含语义,而「建模因笑话而发出的笑声」这样的任务需要强大的语义推理能力;
  • 经过大量预训练之后,语言模型能够具备强大的语义理解能力。

基于这样的理解,该团队打造出了一种全新的多模态语言模型,如图 1 所示。

为了使用语言模型来建模动作,首先自然要想办法将动作变成 token。该团队的做法是针对不同的身体部位(脸、手、上身、下身)来实现动作的 token 化。事实上,之前已有研究表明,这种划分策略在建模人脸表情方面确实很有效。

之后,再搭配上现成可用的文本和语音 token 化策略,就可以将任何模态的输入都表示成 token 了。

为了训练这个使用多种模态的 token 的语言模型,该团队设计了一个两阶段式训练流程:

  • 首先,进行预训练,目标是通过身体组合动作对齐与音频 - 文本对齐来对齐各种不同的模态。
  • 预训练完成后,将下游任务编译成指令,并根据这些指令训练模型,使模型能够遵循各种任务指令。

该团队自然也进行了实验验证,结果发现新方法得到的多模态语言模型确实比其它 SOTA 模型更优。不仅如此,他们还发现,在严重缺乏数据的情况下,这种预训练策略的优势更为明显。

与其他伴语手势生成模型的效果对比
与其他文生动作模型的效果对比
尽管该模型在预训练期间从未见过语音 - 动作数据,但在用于数据相对较少的全新说话人时,它依然达到了颇具竞争力的性能,表现出了显著的泛化能力。

该团队表示:「就我们所知,这是首个构建多模态语言模型来统一 3D 人体动作的言语和非语言语言的工作。」

用于动作生成和理解的多模态语言模型

模型的整体结构如下图 2 所示。

作者使用针对特定模态的 tokenizer 来处理各种输入模态。具体来说,他们训练了一个组合式的身体动作 VQ-VAE,将面部、手部、上半身和下半身的动作 token 化为离散的 token,并将这些针对特定模态的词汇表(音频和文本)合并成一个统一的多模态词汇表。

在训练过程中,他们使用来自不同模态的混合 token 作为输入,并通过编码器 - 解码器语言模型生成输出。混合 token 被送入 transformer 编码器,而解码器则在每一步以自回归的方式预测下一个 token 的概率分布。

模态对齐预训练

现有的动作生成模型在针对下游任务训练时严重依赖成对数据。然而,收集高质量的成对动作数据既昂贵又耗时。与此同时,还有大量未配对的每种模态的数据可供探索。受此启发,作者引入了一个生成式预训练策略,如图 3 所示。具体来说,他们在预训练阶段实施了两种类型的模态对齐:组合动作对齐和音频 - 文本对齐。

  1. 组合动作对齐

我们的身体动作本质上是组合性的,即不同的身体部位是相互协调动作的。例如,当我们高兴时,我们的面部会展现出微笑,我们的手势也倾向于变得更加积极。不同身体部位动作之间的相关性是普遍的,超越了文化界限。这种共享的先验知识构成了论文所提方法的基础。为了探索这种对应关系,作者考虑了两种类型的动作对齐任务:空间和时间。

  • 空间

为了建模这些不同身体部位之间的相关性,作者训练模型接收随机选择的身体部位组合(例如,上半身或上半身 + 面部)并预测另一个随机选择的其他身体部位组合(例如,下半身或下半身 + 手部)。这有助于模型学习身体部位之间的空间关系。下面是一个定义任务提示、条件和答案的示例模板。模型接收提示和条件作为输入,并按预期输出答案。

  • 时间

预测动作如何随时间变化也是一个重要的自监督任务,它使模型能够捕捉动作的时间演变。作者通过随机遮盖(mask)某些动作帧来建模这一点,以帮助模型学习动作的时间先验。

  1. 音频 - 文本对齐

除了动作模态,作者还设计了音频和文本模态之间的翻译任务,以利用大量可用的数据。这些任务遵循「从模态 X 预测模态 Y」的格式。例如,「从音频预测文本」应该通过将音频嵌入映射到预训练良好的文本嵌入空间,来帮助模型提升「从音频预测动作」方面的性能。

指令遵循后训练

预训练之后,模型获得了对动作模态词汇中潜在的语法和句法的理解。然而,为了使模型能够执行特定的下游任务,还需要进行指令遵循训练。该团队将各种下游任务转换为自然语言指令,并使用这些指令微调模型。这种设计使模型能够灵活地适应各种任务,而无需为每个任务重新训练模型。

实际应用场景

这一突破为人工智能在多个领域的应用开辟了新的可能性:

  1. 语音生成:模型不仅能生成自然流畅的语音,还能根据上下文和情感状态调整语调和节奏。在客服场景中,可以根据客户的情绪变化生成更加贴心和人性化的回应。

  2. 文本生成:模型能够生成高质量的文本,包括新闻报道、故事和诗歌等。通过对大量文本数据的学习,模型能够捕捉到语言的细微差异和情感色彩,生成的文本更加生动和真实。

  3. 动作生成:模型在虚拟现实和机器人领域展现出巨大潜力。例如,在虚拟现实游戏中,可以生成更加自然的角色动作,提升游戏的真实感和沉浸感。在机器人领域,可以帮助机器人更好地理解和执行复杂的任务。

未来展望

尽管这一研究已经取得了显著进展,但仍面临一些挑战。例如,多模态数据的获取和标注成本较高,不同模态数据之间的关联性和一致性问题仍需进一步研究。此外,模型的可解释性和透明度也是未来需要关注的重要方向。

这一突破性研究不仅展示了人工智能在情感理解和多模态处理方面的巨大潜力,也为未来开发更加智能和人性化的AI系统奠定了重要基础。随着技术的进一步发展,我们有望看到更多基于这一研究的创新应用出现,为人类生活带来更多便利和惊喜。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号