浙大提出Ex-MCR,参数高效的通用多模态统一表征构建范式
浙大提出Ex-MCR,参数高效的通用多模态统一表征构建范式
浙大研究团队提出了一种新的多模态统一表征构建方法Ex-MCR(Extending Multi-modal Contrastive Representations),通过创新地使用“扩展”操作,解决了现有方法在数据对齐性要求高、训练计算量大的问题。Ex-MCR可以在极低的训练成本和不使用原始配对数据的情况下灵活地整合多个表征空间,为统一表征空间构建提供了新方向。
多模态对比表征学习的挑战
多模态对比表征(Multi-model Contrastive Representations)学习的目的是在共享表征空间内对齐来自不同模态的输入。经典的“双塔模型”通过使用两个模态间的编码器将原始数据提取为表征向量并使用对比学习损失进行语义对齐。
近年来,三种以上模态的高质量对比表征越来越受到关注,并在多模态理和生成的许多应用场景中发挥着基础作用。但是现有的主流方法高度依赖于大规模、高质量的配对数据,以及昂贵的训练成本,这些限制了它们的进一步发展和应用。
此外,随着模态数量的增加,数据准备和模型训练的成本显著上升,这使得构建一个统一的多模态表征空间变得尤为困难。
C-MCR方法的局限性
最近,论文 C-MCR(Connecting Multi-model Contrastive Representations)引入了一种新的训练效率方法,用于通过从现有语义对齐空间中挖掘知识来学习缺乏配对数据的模态之间的对比表征。它通过重叠的模态将两个预训练的表征空间映射到一个新的共享空间。由于预训练空间的模态本质上是对齐的,从重叠模态中学习到的连接也可以转移到非重叠模态中。
在实验中,即使不使用原始的图像-音频和 3D-文本数据对,C-MCR 在图像-音频中也能达到领先的性能。然而 C-MCR 主要侧重于学习两个非重叠模态之间的新空间,并不适合构建统一的表征空间,尤其是包括三个以上模态的空间。由于遗忘了强大的原始预训练空间中的模态对齐性,在进行更多模态的级联整合时,C-MCR 的性能将会显著下降。
Ex-MCR的核心技术设计
为了解决目前在多模态统一表征空间构建上数据对齐性要求高、训练计算量大的挑战,研究团队提出了一种新的基于“扩展”的学习范式——Ex-MCR。它在模态可扩展性、训练灵活性和模态对齐性的保持上都获得了前所未有的能力。
“扩展”代替“连接”,保持基空间模态对齐性
对于两个对比学习表征空间,不同于 C-MCR 将两者映射到一个新的表征空间中,Ex-MCR 选取其中一个作为“基空间”而另一个空间作为“叶空间”,只将叶空间映射到基空间中。由于基空间不进行任何映射,其中所有的模态对齐性得到了保留。因此,基空间可以与多个叶空间进行同样的“扩展”操作,使基空间内的模态不断得到扩充,从而构建起多模态统一表征空间。
多“模态中心”的数据伪对构建,保证不同模态的原生语义信息
C-MCR 使用重叠模态的数据来检索语义相似的其他模态表征,并将这些检索得到的表征视为伪对。然而,事实上我们很难用一种模态完全表示另一种模态,由一种模态检索得到的表征往往忽略了其他模态的一些语义。例如,不发声对象,如蘑菇的表征很难在音频表征中找到对应,而不可见的物体如风声则往往在视觉表征中被其他的对象所干扰。
为了解决上述问题,研究团队提出了以多种模态为中心的数据检索策略。结合多个模态聚合的语义一致的表征,最终的嵌入可以更全面地反映不同模态各自表征空间。
解耦的映射器,缓解不同训练目标之间的干涉
Ex-MCR 的主要网络结构是一个映射器,它有两个作用:1)弥合叶空间内的模态间隙,促进空间之间更稳定的对齐;2)学习将叶空间扩展到基空间的映射函数。考虑到这两种不同的优化目标,研究团队提出了一种解耦的投影器,以减轻不同优化目标之间的潜在冲突,并为这两种优化目标设计了更合理的映射层结构。
密集对齐损失,充分刻画基空间的表征分布
由于 Ex-MCR 保留了完整的基空间,基空间内的模态间隙也同时被保留。因此,研究团队在 Ex-MCR 中设计了更鲁棒的学习目标来将叶空间映射到基空间中的适当位置:对于参与映射的所有模态对,他们都构建了一组 InfoNCE 对比学习损失函数。所有这些损失函数集合为最终的跨空间对齐目标。
实验验证:低训练成本下Ex-MCR融合多种空间的强对齐性
为了验证 Ex-MCR 在统一表征空间中的实际效果,研究团队在多个数据集上进行了广泛的实验,涵盖了语音重构、语义信息评估和消融研究。结果显示,Ex-MCR 展现了其卓越的灵活性、对齐质量和模态扩展能力。
研究团队使用 Zero-Shot 的音频-图像、音频-文本和图像-文本检索任务来评估 Ex-MCR 的音频-图像-文本表征。即使没有使用音频-图像配对数据,Ex-MCR-base 的性能也明显优于 WAV2CLIP 和 AudioCLIP,这说明了在高质量数据对有限的情况下,Ex-MCR 是一种更有效的表征学习方法。
此外,与 C-MCR 相比,Ex-MCR 不仅实现了更好的音频-图像对齐,而且从 CLAP 继承了更多的音频-文本对齐,充分保留了 CLIP 的图像-文本模态对齐,表明 Ex-MCR 在建立新空间和保持原有空间方面全面优于 C-MCR。Ex-MCR 由于不对基空间进行任何修改,因此可以和数据驱动方法正交地并行使用。
研究团队惊喜地发现,当并行使用 Ex-MCR 和数据驱动方法如(ImageBind),只需很少的额外成本,就可以相互补充,实现最先进的统一音频-图像-文本表征。同样在 3D-图像-文本表征上,他们也取得了类似的领先结果。
他们同时也考察了两个叶空间之间的模态在 Ex-MCR 所构建的统一表征空间中的对齐性。他们使用 Ex-MCR,将 ULIP 和 CLAP 都扩展到同一个 CLIP 空间上,然后通过这 3D 和音频两种模态表征的互相检索,得到了如下的检索结果:
这说明 Ex-MCR 所构建的是一个各种表征对齐性都足够强的统一的对比学习表征空间。
总结
Ex-MCR 是一种训练效率高、不需要配对数据的多模态统一表征学习范式。Ex-MCR 通过这些空间之间的重叠模态有效地将知识整合到预训练空间中。即使不使用配对数据,Ex-MCR 仍然可以实现具有竞争力的对齐性能,并且当与数据驱动方法相结合时,它可以互补地增强统一的表征空间,从而在各种任务中获得最领先的结果。
在未来,作为一种通用的学习范式,Ex-MCR 能够持续地受益于各种对比学习空间对齐性的进步。
论文标题:
Extending Multi-modal Contrastive Representations
论文地址:
https://arxiv.org/abs/2310.08884
Github地址:
https://github.com/MCR-PEFT/Ex-MCR