资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

小样本学习+多模态：前沿研究与创新应用

创作时间:

作者:

@小白创作中心

小样本学习+多模态：前沿研究与创新应用

引用

CSDN

https://blog.csdn.net/ss20211121/article/details/142170853

小样本学习与多模态学习的结合是一种前沿的研究方向，主要作用是在利用少量的训练数据来学习多个模态（如文本、图像、音频、视频等）之间的关系或进行跨模态的任务。通过这种结合，模型能够在极少的样本情况下，从不同类型的数据中提取有效信息，并进行推理和预测。

小样本学习+多模态

小样本学习和多模态学习的结合是一种前沿的研究方向，主要作用是在利用少量的训练数据来学习多个模态（如文本、图像、音频、视频等）之间的关系或进行跨模态的任务。通过这种结合，模型能够在极少的样本情况下，从不同类型的数据中提取有效信息，并进行推理和预测。

他主要面对的挑战有：

数据稀缺：小样本学习意味着模型要从非常少的示例中进行学习，这对模型的泛化能力有极高的要求。在多模态情境下，不同模态之间的数据一般都有着不同的结构和特征，使得从少量数据中捕捉这些模态之间的关联更加困难。
跨模态特征对齐：如何在不同模态之间对齐特征（如何将文本、图像或音频中的信息转化为模型可理解的、共享的表示空间）
模态之间的相互依赖：不同模态的数据通常有高度的相互依赖性

应用场景：

图像-文本生成：通过少量的图像和文本对，模型可以学习生成描述图像的自然语言文本或从文本生成图像。这对于自动内容生成或图片自动标注非常有用。
视频理解与摘要：通过小样本的视频和字幕对，模型可以学习如何对视频中的事件进行总结或从视频生成字幕。对于视频处理、安防监控等领域具有重要应用。
跨模态问答：模型能够在给定少量图像或文本信息的情况下回答问题。例如，在视觉问答任务中，模型可以根据给定的图像和少量问题示例来进行回答。
医疗诊断：在医学影像和文本报告的多模态数据中，通过少量标注的病例数据，模型可以学习到影像与诊断文本之间的关联，从而帮助医生更好地进行诊断。

1. Active Exploration of Multimodal Complementarity for Few-Shot Action Recognition

Active Multimodal Few-shot Action Recognition (AMFAR)旨在提高小样本动作识别的性能。基于元学习范式，包含元训练和元测试两个阶段。

在元训练阶段，首先使用特定于模态的背骨网络提取查询样本和支持样本的动作原型的多模态表示。
利用查询到原型的距离计算模态特定的后验分布，并采用Active Sample Selection (ASS) 模块，根据模态的可靠性将查询样本分组。
设计了Active Mutual Distillation (AMD) 机制，通过双向知识引导流在模态间传输查询到原型的关系知识，从而提高不可靠模态的表示学习能力。
在元测试阶段，采用Adaptive Multimodal Inference (AMI) 进行小样本推理，通过自适应地融合不同模态的后验分布，更多地关注可靠的模态。

创新点：

多模态互补性的主动探索：首次将主动学习的思想应用于探索小样本学习中的多模态互补性，通过主动寻找每个查询样本的更可靠模态来改进小样本推理过程。
基于任务的模态选择：根据任务特定的上下文信息，动态地选择在当前任务中更可靠的模态，而不是预设某一模态始终作为教师或学生。
双向知识蒸馏：提出了一种双向知识蒸馏策略，通过从可靠模态到不可靠模态的双向知识引导，提高不可靠模态的判别能力。
自适应多模态推理：在元测试阶段，根据模态的可靠性自适应地融合不同模态的结果，而不是简单地平均或串联不同模态的预测。
实验验证：在四个公共基准数据集上进行了广泛的实验，证明了所提出方法相较于现有的单模态和多模态方法取得了显著的性能提升。
模块化设计：通过将问题分解为不同的模块（ASS、AMD、AMI），使得框架具有更好的灵活性和可扩展性，便于针对不同的小样本动作识别任务进行调整和优化。

2. Generative Multimodal Prompt (GMP) Model

论文提出了一种新颖的Generative Multimodal Prompt(GMP) 模型，用于处理多模态小样本（few-shot）情境下的多模态基于方面的情感激化分析，包括联合多模态方面-情感激化分析、多模态方面情感分类和多模态方面术语提取。

GMP模型由多模态编码器（ME）模块和N-Stream解码器（NSD）模块组成。
为了构建实用的小样本数据集，论文根据数据分布采用不同情感类别的组合来采样数据。
论文还引入了一个子任务，即预测每个实例中的方面术语数量，作为构建多模态提示的一部分。
利用ME和方面数解码器（AND）预测方面术语的数量。
通过ME和方面导向的提示解码器（APD）为每个方面生成方面导向的提示。
使用ME和情感导向的提示解码器（SPD）生成情感导向的提示。
构建了基于图像标题、预测的方面术语数量、方面提示和情感提示的特定多模态提示。
将多模态嵌入与多模态提示一起输入基于BART模型的多模态编码器-解码器，以生成三元组序列。

创新点：

生成式多模态提示（GMP）：首次提出用于多模态小样本情境下的MABSA的GMP模型，包括多模态编码器和N-Stream解码器模块。
多任务学习：通过预测每个实例中的方面术语数量的子任务，增强了模型在小样本数据上的性能。
方面数量预测：引入方面数量预测作为子任务，以更好地构建多模态提示。
方面和情感导向的提示生成：根据多模态上下文生成针对每个方面的提示，以及针对情感的提示，以适应不同实例的特定需求。
多模态嵌入与提示结合：构建了结合图像、文本和预测信息的多模态嵌入，并与生成的提示结合，用于提高小样本学习的性能。
实验验证：在两个数据集上进行了广泛的实验，证明了所提出的方法在小样本设置下对JMASA和MASC任务的性能优于强基线模型。
针对小样本的模型优化：考虑了小样本学习中的挑战，通过多任务学习和生成式提示来优化模型，使其能够更好地适应标注数据有限的情况。

3. Few-shot Multimodal Sentiment Analysis Based on Multimodal Probabilistic Fusion Prompts

论文提出了一种新颖的方法，名为Multimodal Probabilistic Fusion Prompts（MultiPoint），用于处理小样本多模态情感分析问题。该方法首先引入了一种名为Consistently Distributed Sampling(CDS)的采样方法，确保小样本数据集的类别分布与完整数据集保持一致。

与传统的基于文本模态的提示方法不同，MultiPoint设计了统一的多模态提示，以减少不同模态之间的差异，并将多模态示例动态地融入每个多模态实例的上下文中。
为了增强模型的鲁棒性，论文引入了一种基于概率融合的方法，该方法融合了多个不同提示的输出预测。
在模型的训练中，使用了预训练的语言模型（如RoBERTa），并通过微调来适应特定的情感分类任务。
模型采用了多模态提示的细粒度设计，包括文本提示和图像提示，并通过特殊的标记（如）来引导模型预测情感类别。
模型使用了基于Bayesian Fusion的概率融合方法，结合来自不同多模态提示的预测，以获得更可靠和准确的结果。

创新点：

Consistently Distributed Sampling (CDS)：提出了一种新的采样方法，确保小样本数据集能够反映完整数据集的真实分布，提高了模型评估的准确性。
统一多模态提示：设计了结合文本和图像模态的统一提示，提高了多模态信息融合的效果。
多模态示例动态选择：通过相似度分数动态选择与训练数据集中特定标签最相似的多模态示例，作为上下文信息，增强了模型的鲁棒性。
基于概率融合的预测方法：引入了基于贝叶斯规则的概率融合方法，融合来自不同提示的预测，提高了预测的准确性和鲁棒性。
跨模态的提示设计：通过为文本和图像模态分别设计提示，并结合使用，来减少模态间的信息差异，提高模型对多模态信息的整合能力。
实验验证：在六个多模态情感数据集上进行了广泛的实验，证明了MultiPoint方法在小样本设置下优于现有的强基线模型。
多模态情感分析任务的适应性：模型能够适应粗粒度和细粒度的多模态情感分析任务，显示出良好的适应性和泛化能力。