问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

多代理AI和GPU驱动的声音转文本技术创新

创作时间:
作者:
@小白创作中心

多代理AI和GPU驱动的声音转文本技术创新

引用
nvidia
1.
https://developer.nvidia.com/zh-cn/blog/multi-agent-ai-and-gpu-powered-innovation-in-sound-to-text-technology/

自动音频字幕(Automated Audio Captioning,AAC)任务的核心是从音频输入中生成自然语言描述。鉴于输入(音频)和输出(文字)之间的不同模式,AAC系统通常依靠audio encoder从声音中提取相关信息,表示为feature vectors,然后decoder用于生成文本描述。

这一研究领域对于开发使机器能够更好地解释周围声学环境并与之交互的系统至关重要。意识到其重要性的Detection and Classification of Acoustic Scenes and Events(DCASE)社区自2020年以来举办了年度AAC竞赛,吸引了全球超过26个学术界和行业的团队参加。


图 1. 音频和文本代理之间拟议的多代理协作示例

收听Audio Example of a Recording Environment in a Forest的结果。

在本文中,我们将深入探讨在DCASE 2024 AAC挑战赛(将于10月23日至25日在日本东京举办)中获胜背后的核心创新。

该CMU-NVIDIA解决方案报告:

  • 通过采用多个音频编码器来增强编码器-解码器架构。
  • 使用基于LM的任务激活提示来丰富信息的后期编辑。

这种架构通过使用不同粒度的编码器提高了系统捕获各种音频特征的能力。多编码器方法使我们能够向解码器提供更丰富、更互补的信息,从而显著提高性能。

卡内基梅隆大学(CMU)语言技术研究所(LTI)的Shinji Watabe教授说:“这是一个很酷的方式,展示了我们的团队与开源研究人员合作,为音频和语言理解社区的进步做出的贡献。”

多agent协作以提升性能

我们的方法最具创新性的方面之一是不同编码器模型之间的多智能体协作,事实证明这是提高性能的关键因素。通过集成具有不同粒度的多个编码器(例如BEAT和ConvNeXt),我们实现了音频功能的更大覆盖范围。

这种融合编码器的策略与多模态AI研究的近期突破性成果有相似之处,例如MERL和CMU的2023解决方案,其中结合不同的agents——每个agent专门处理任务的不同方面——可产生出色的结果。

在我们的系统中,我们采用了与那些论文中使用的概念类似的编码器融合策略,使我们能够利用每个编码器的优势。我们进一步考虑了基于文本假设的丰富性,包括近期ACL 2024中的GenTranslate和NVIDIA Research在Taiwan的EMNLP 2024中的Generative Image Captioning(GIC)评估,这些工作可实现描述丰富度自定义。例如,GenTranslate和GIC均展示了多种语言模型如何协同提高跨语言语音翻译的准确性,而GenTranslate则强调了多代理系统在生成式语音翻译任务中的效率。

这两个示例都强调了为复杂任务集成互补模型的价值,同时强化了我们的方法显著提高AAC性能的潜力。我们介绍了如何在基于GPU的预训练流程和后编辑流程中使用核心技术。

借助NVIDIA DGX和NVIDIA OVX平台,先进的NVIDIA计算机技术,例如Taipei-1(全球500强中排名第38位的超级计算机集群),在加速这一先进的探索和研究开发方面也发挥了重要作用。


图 2. 自动音频字幕(AAC)系统

图2显示了基于编码器融合、描述过滤和生成式摘要的建模。生成式摘要部分基于NVIDIA Research之前的工作GenTranslate。

模型背后的核心声学建模技术

我们的系统架构受到CMU和MERL去年的获奖开源模型的启发,并引入了一些改进:

  • 多编码器融合:我们采用两个预训练音频编码器(BEATs和ConvNeXt)来生成互补的音频表示。这使得解码器能够处理更广泛的特征集池,从而获得更准确、更详细的字幕。
  • 多层聚合:不同的编码器层捕获输入音频的各个方面,通过聚合所有层的输出,我们进一步丰富了输入解码器的信息。
  • 生成式字幕建模:为了优化自然语言描述的生成,我们应用了基于大语言模型(LLM)的摘要过程,这与RobustGER中使用的方法类似。此步骤将多个候选描述整合为一个流畅的输出,使用LLM确保描述的语法一致性和类似人类的感觉。

多智能体协作通过音频、文本和LLM集成

除了多编码器架构之外,我们还开发了一种新的多智能体协作推理管道。近期的研究显示了在AAC任务中进行nucleus sampling的优势,因此我们改进了传统的beam search方法。

我们的推理流程遵循一个三阶段管道:

  • 基于CLAP的字幕过滤:我们生成多个候选字幕,并使用Contrastive Language-Audio Pretraining(CLAP)模型过滤相关性较低的字幕,从而将候选字幕的数量减半。
  • 混合重排名:然后使用我们的混合重排名方法对其余标题进行排名,以选择排名靠前的k个最佳标题。
  • LLM总结:最后,我们使用任务激活(即[conditional prompt] do you know audio captioning?)LLM将k-best描述总结为单个连贯的一致的描述,确保最终输出捕获音频的所有关键方面。

这种新型推理工作流利用了音频处理和语言建模的优势,显著提高了模型在上下文中准确描述的能力,将文本解码为下游文本代理的特征图形式。

影响和性能

我们的多编码器系统的Fluency Enhanced Sentence-BERT Evaluation(FENSE)评分为0.5442,优于基准评分0.5040。通过整合多agent系统,我们为进一步改进AAC任务开辟了新的途径。

未来的工作将探索集成更先进的融合技术,并研究专业代理之间的进一步协作如何提高生成的描述的粒度和质量。

我们希望,我们的贡献能够激发我们对多智能体AI系统的持续探索,并鼓励其他团队采用类似策略来融合各种模型来处理复杂的多模态任务,如AAC。

在图3中,分数越高意味着从音频上下文中捕获的详细信息越多,信息越丰富。


图 3. 音频说明 2024 DCASE 挑战赛基于流畅度感知型 FENSE 分数评估结果

使用NVIDIA的GPU技术实现性能和可扩展性

得益于多编码器融合和LLM-driven summarization之间的协同作用,我们的解决方案在语义理解分数方面比其他参与者高出(相对)10%以上。这一成功凸显了多代理、多模态系统在推进通用理解方面的潜力。

使用基于LLM的多对一文本校正是此过程中的一项关键创新,使模型能够更好地利用文本建模代理的计算能力。这方法检索和优化嵌入音频中的隐藏信息,从而提高系统的整体性能。

这种方法基于NVIDIA在多模态AI领域的先进工作成果,例如擅长多语种语音和文本翻译的GenTranslate模型。同样,我们最近的Audio Flamingo项目、Synthio项目以及NVIDIA应用深度学习研究(ADLR)的数据集也展示了先进的音频编码器预训练技术的强大功能。

这些系统以及我们屡获殊荣的AAC解决方案均受益于NVIDIA A100和NVIDIA H100 GPUs,不仅加速了AI开发,还突破了多模态学习的极限。来自NVIDIA Research的Huck Yang受邀在DCASE Workshop 2024计划期间参加了有关音频语言技术的技术小组讨论。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号