清华:多模态大模型可信度评估基准
创作时间:
作者:
@小白创作中心
清华:多模态大模型可信度评估基准
引用
CSDN
1.
https://blog.csdn.net/weixin_46739757/article/details/144421283
多模态大语言模型(MLLM)在各种任务中展现出卓越的能力,但同时也面临着重大的可信度挑战。近日,清华大学研究团队提出了首个全面统一的MLLM可信度评估基准——MultiTrust,该基准涵盖了真实性、安全性、稳健性、公平性和隐私性五个主要方面,通过32个不同任务和自我策划的数据集,对21个现代MLLM进行了广泛实验,揭示了一些以前未被探索的可信度问题和风险。
研究背景与意义
尽管多模态大型语言模型(MLLM)在各种任务中具有卓越的能力,但它们仍然面临着重大的可信度挑战。然而,目前关于评估可信赖MLLM的文献仍然有限,缺乏对未来改进的全面评估。
在这项工作中,研究团队建立了MultiTrust,这是第一个全面统一的MLLM可信度基准,涵盖五个主要方面:真实性、安全性、稳健性、公平性和隐私性。该基准采用了一种严格的评估策略,既解决了多模态风险,也解决了跨模态影响,包括32个不同的任务和自我策划的数据集。
MultiTrust的主要贡献
- 全面性:MultiTrust是首个全面评估多模态大语言模型可信度的基准,涵盖了32个任务和10个详细子方面。
- 评估体系:设计原则包括全面评估多模态风险和跨模态影响,涵盖了多模态特性的各个方面。
- 任务分类:将任务分为两级分类,包括32个任务,涉及多模态风险和跨模态影响。
- 评估指标:采用了多种评估指标,包括规则基础的评估(如关键词匹配)、自动评估(如GPT-4或其他分类器)和混合评估。
- 模型选择:选择了21个先进的MLLMs进行评估,包括4个高级专有模型和17个开源模型,以确保评估的广泛性和代表性。
- 工具箱开发:开发了一个可扩展和标准化的工具箱,用于可信度研究,支持不同MLLM的统一接口和任务模块化。
实验结果与分析
- 总体表现:专有模型如GPT-4V和Claude3在可信度方面表现最佳,而开源模型在可信度方面仍有显著差距。
- 真实性:MLLM在细粒度感知任务中表现不佳,尤其是在视觉定位任务中,且对图像和文本模态的依赖性不同。
- 鲁棒性:MLLM在面对对抗性攻击时表现出脆弱性,特别是在图像字幕任务中,准确率大幅下降。
- 公平性:MLLM对刻板印象查询高度敏感,但在不同主题的刻板印象评估中表现出差异。
- 隐私:大多数模型在识别图像中的私人信息方面表现良好,但在需要复杂推理的场景中表现显著下降。
附录
参考文献
[1] arXiv preprint arXiv:2406.07057
热门推荐
西南大学的历史变迁
如何评估产业园区的发展潜力?评估时要关注哪些要点?
身体出现这5种“臭味”要小心了,可能是疾病的征兆
编程IDL是什么意思
北京轨道交通R4线一期北段“环评”通过,采纳了这些公众意见
如何用C语言创建一个空的线性表
班会课活动高中游戏
华歆是谁?历史上的他是个什么样的人?
摩洛哥旅行预算规划:如何在摩洛哥省钱又玩得开心
T恤克重小知识:了解面料厚度与穿着舒适度
《阿甘正传》:奔跑不止的隐喻与人生启示
蓝莓一天吃多少为宜
OLED拼接大屏的安装与维护技术指南
RotRNN:使用旋转矩阵对长序列进行建模
中国与印度未来有哪些领域值得合作?
拌饭大作战,美味不用等!
左手抖动不受控制是什么征兆
豆芽放几天吃了会中毒吗
C语言中如何将字母转换为ASCII码
熬夜对尿酸高有影响吗?这些注意事项请收好
两个多月9次新高!节日促销遇金价高位,这类饰品受宠
如何开展技术交流协作
小孩感冒怎么办?儿童感冒的并发症有哪些
张雨霏:中国泳坛新一代“蝶后”的励志故事
职场人士如何午睡才健康
2024苏州外地牌照限行新规,苏州限行时间和范围
RNAi技术是什么
50亿研发云轨,每公里成本比地铁低8亿,为何中国要全面叫停?
常见的烟草制品种类大全 不同烟制品的定义和特点
云服务器CPU选择Intel和AMD的区别,选择哪个好?