问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

清华:多模态大模型可信度评估基准

创作时间:
作者:
@小白创作中心

清华:多模态大模型可信度评估基准

引用
CSDN
1.
https://blog.csdn.net/weixin_46739757/article/details/144421283

多模态大语言模型(MLLM)在各种任务中展现出卓越的能力,但同时也面临着重大的可信度挑战。近日,清华大学研究团队提出了首个全面统一的MLLM可信度评估基准——MultiTrust,该基准涵盖了真实性、安全性、稳健性、公平性和隐私性五个主要方面,通过32个不同任务和自我策划的数据集,对21个现代MLLM进行了广泛实验,揭示了一些以前未被探索的可信度问题和风险。

研究背景与意义

尽管多模态大型语言模型(MLLM)在各种任务中具有卓越的能力,但它们仍然面临着重大的可信度挑战。然而,目前关于评估可信赖MLLM的文献仍然有限,缺乏对未来改进的全面评估。

在这项工作中,研究团队建立了MultiTrust,这是第一个全面统一的MLLM可信度基准,涵盖五个主要方面:真实性、安全性、稳健性、公平性和隐私性。该基准采用了一种严格的评估策略,既解决了多模态风险,也解决了跨模态影响,包括32个不同的任务和自我策划的数据集。

MultiTrust的主要贡献

  • 全面性:MultiTrust是首个全面评估多模态大语言模型可信度的基准,涵盖了32个任务和10个详细子方面。
  • 评估体系:设计原则包括全面评估多模态风险和跨模态影响,涵盖了多模态特性的各个方面。
  • 任务分类:将任务分为两级分类,包括32个任务,涉及多模态风险和跨模态影响。
  • 评估指标:采用了多种评估指标,包括规则基础的评估(如关键词匹配)、自动评估(如GPT-4或其他分类器)和混合评估。
  • 模型选择:选择了21个先进的MLLMs进行评估,包括4个高级专有模型和17个开源模型,以确保评估的广泛性和代表性。
  • 工具箱开发:开发了一个可扩展和标准化的工具箱,用于可信度研究,支持不同MLLM的统一接口和任务模块化。

实验结果与分析

  • 总体表现:专有模型如GPT-4V和Claude3在可信度方面表现最佳,而开源模型在可信度方面仍有显著差距。
  • 真实性:MLLM在细粒度感知任务中表现不佳,尤其是在视觉定位任务中,且对图像和文本模态的依赖性不同。
  • 鲁棒性:MLLM在面对对抗性攻击时表现出脆弱性,特别是在图像字幕任务中,准确率大幅下降。
  • 公平性:MLLM对刻板印象查询高度敏感,但在不同主题的刻板印象评估中表现出差异。
  • 隐私:大多数模型在识别图像中的私人信息方面表现良好,但在需要复杂推理的场景中表现显著下降。

附录

参考文献

[1] arXiv preprint arXiv:2406.07057

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号