如何处理多模态数据噪声不均衡动态？天大等最新《低质量数据的多模态融合》综述

创作时间:

作者:

@小白创作中心

如何处理多模态数据噪声不均衡动态？天大等最新《低质量数据的多模态融合》综述

引用

CSDN

https://blog.csdn.net/weixin_43564920/article/details/138543674

多模态融合技术在自动驾驶、医疗诊断等领域展现出巨大潜力，但低质量数据环境下的可靠性问题尚未得到充分探索。本文综述了多模态融合在噪声、不完整、不平衡和质量动态变化等低质量数据场景下面临的挑战，并总结了当前的研究进展和未来方向。

低质量多模态数据的四大挑战

多模态融合致力于整合来自多种模态的信息，目的是实现更准确的预测。在包括自动驾驶和医疗诊断等广泛的场景中，多模态融合已取得显著进展。然而，在低质量数据环境下，多模态融合的可靠性大部分仍未被探索。本文综述了开放多模态融合面临的常见挑战和最新进展，并将它们呈现在一个全面的分类体系中。从数据中心的视角，我们确定了低质量数据上多模态融合面临的四个主要挑战：

噪声多模态数据：它们被不同种类的噪声污染
不完整的多模态数据：某些模态缺失
不平衡的多模态数据：不同模态的质量或属性有显著差异
质量变化的多模态数据：每种模态的质量会根据不同样本动态变化

这一新的分类体系将使研究人员能够理解该领域的现状，并识别出几个潜在的研究方向。我们还讨论了这一领域的开放问题以及有趣的未来研究方向。

噪声多模态数据上的学习

在现实世界场景中收集高质量的多模态数据不可避免地面临着由噪声带来的重大挑战。多模态数据的噪声可能源于传感器错误、环境干扰或传输损失。对于视觉模态，传感器中的电子噪声会导致细节丢失。此外，音频模态可能因环境因素受到意外的扭曲。更糟糕的是，弱对齐甚至未对齐的多模态样本也常见，这存在于更高级别的语义空间中。幸运的是，考虑多模态之间的相关性或更好地利用多模态数据可以帮助融合噪声多模态数据。各种相关工作表明，多模态模型超越了它们的单模态对应物。这可以归因于多模态数据利用不同模态之间的相关性，识别和减轻潜在噪声的能力。

多模态噪声大致可以根据其来源分为两类：

模态特定噪声，来源于各个模态的传感器错误、环境因素或传输
跨模态噪声，来源于未对齐的多模态对，可以被视为语义级别的噪声

不完整多模态学习

在真实应用中收集的多模态数据常常不完整，某些样本的部分模态因意外因素（如设备损坏、数据传输和存储损失）而缺失。例如，在面向用户的推荐系统中，浏览行为历史和信用评分信息可能并不总是对某些用户可用。同样地，虽然结合多种模态的数据，例如磁共振成像（MRI）扫描、正电子发射断层扫描（PET）和脑脊液（CSF）信息，可以为阿尔茨海默病提供更准确的诊断，但由于PET扫描的高测量成本和CSF的不适感侵入性测试，一些患者可能拒绝进行这些检查。因此，在阿尔茨海默病诊断中常见不完整的多模态数据。通常，传统的多模态学习模型假设多模态数据的完整性，因此不能直接适用于部分模态缺失的情况。针对这一问题，旨在探索具有部分缺失模态的不完整多模态数据的信息的不完整多模态学习出现，并在近年来获得了越来越多的研究关注。在本节中，我们主要关注不完整多模态学习研究的当前进展。从是否对缺失数据进行插补的角度来看，我们将现有方法分为两大类，包括基于插补的和无插补的不完整多模态学习，其中基于插补的方法进一步分为两组，如图2所示，包括实例和模态级别的插补。

平衡多模态学习

不同的模态之间紧密相关，因为它们从不同的视角描述同一概念。这一属性激发了多模态学习的兴盛，其中多种模态被整合，旨在增强对相关事件或对象的理解。然而，尽管存在自然的跨模态相关性，每种模态都有其独特的数据来源和形式。例如，音频数据通常表现为一维波形，而视觉数据则由像素组成的图像构成。一方面，这种差异赋予了每种模态不同的属性，如收敛速度，然后使得同时处理和学习所有模态变得困难，给联合多模态学习带来了难度。另一方面，这种差异也反映在单模态数据的质量上。尽管所有模态描述相同的概念，它们与目标事件或对象相关的信息量不同。例如，考虑一个标有会议的音视觉样本，视觉数据明显显示了会议的视觉内容，这很容易被识别。而相应的音频数据是嘈杂的街道汽车声，很难与会议标签建立联系。视觉模态的信息量显然比音频模态多。由于深度神经网络的贪婪本性，多模态模型倾向于仅依赖具有充足与目标相关信息的高质量模态，同时对其他模态欠拟合。为了应对这些挑战并提高多模态模型的效能，最近的研究集中于策略上，以平衡模态之间的差异并增强模型的整体性能。

动态多模态融合

当前的多模态融合方法常基于一种假设，即多模态数据的质量是静态的，这在现实世界场景中并不总是成立的。处理具有动态变化质量的多模态数据是多模态智能系统不可避免的问题。由于意外的环境因素和传感器问题，一些模态可能会遭受可靠性差和丢失任务特定信息的问题。此外，不同模态的质量会根据场景动态变化，如图5所示。这一现象激发了一种新的多模态学习范式，即动态多模态融合，其目标是适应多模态数据质量的动态变化并有选择性地整合任务特定信息。在本节中，我们关注动态多模态融合的挑战，并将当前文献中的进展分类为三个主要方向，包括启发式、基于注意力和意识到不确定性的动态融合。

热门推荐

体重95kg的人减肥期间每日蛋白质摄入量指南