问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

中科院软件所提出基于因果推理的视觉语言模型下游任务适应方法

创作时间:
作者:
@小白创作中心

中科院软件所提出基于因果推理的视觉语言模型下游任务适应方法

引用
中国科学院
1.
https://is.cas.cn/xwdt2016/kyjz2016/202410/t20241023_7406573.html

近日,中国科学院软件研究所天基综合信息系统全国重点实验室研究团队在机器学习领域国际顶级学术会议NeurIPS 2024发表重要研究成果。研究团队深入探讨了基础视觉语言模型在适应特定下游任务时面临的数据错位问题,并提出了一种创新的适应方法,显著提高了模型对新类数据的识别能力。

近年来,诸如CLIP等基础视觉语言模型通过在大规模数据集上的训练,展现出了卓越的泛化能力。然而,在这类模型通过提示调优适应下游任务时,普遍存在数据错位,即测试时除了有用于训练的基类数据,还需在新类数据上进行评估。实验显示,随着训练进行,模型在基类上的性能持续提升,但在新类上的表现呈现先升后降的趋势。研究团队使用结构因果模型(SCM)对这一现象进行了分析,发现下游任务中基于基类估计的任务无关生成因子对新类来说往往是不准确的,被错误保留的任务无关生成因子成为了影响模型性能的混杂因子。

为了减轻混杂因子的干扰,研究团队提出了一个名为因果驱动的语义解耦与分类方法(CDC),通过前门调整来提升模型新类识别的能力。该方法由两个核心模块组成:第一个模块为语义解耦模块,旨在从输入数据中提取并解耦不同的语义特征;第二个模块为可信分类模块,能够处理多个独立的特征输入,评估对应输出的不确定性,并将结果进行融合。这两个模块互相配合,共同实施前门调整,以估计输入图像及其类别之间的真实因果关系,来增强对新类数据的识别能力,减轻了与任务无关的生成因子对模型性能的负面影响。


因果驱动的语义解耦与分类方法(CDC)框架图

研究团队进一步在Base-to-New、跨数据集OOD泛化、跨域OOD泛化三种不同的实验设置下进行了验证。结果表明,在不同的实验设置下引入CDC均能实现稳定的性能提升。特别是在Base-to-New实验中,CDC在HM指标上相较基线方法MaPLe实现了较为明显的平均性能提升。


Base-to-New设置下的实验结果

跨数据集OOD泛化设置下的实验结果

跨域OOD泛化设置下的实验结果

该研究成果不仅为视觉语言模型的下游任务适应提供了新的思路,也为解决数据错位问题提供了有效的解决方案。这一创新方法有望在未来的AI应用中发挥重要作用。

论文链接:https://arxiv.org/abs/2410.12816

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号