问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

MVBench:多模态大模型视频理解能力基准 | CVPR 2024

创作时间:
作者:
@小白创作中心

MVBench:多模态大模型视频理解能力基准 | CVPR 2024

引用
1
来源
1.
https://www.shlab.org.cn/news/5443931

上海人工智能实验室等多家机构联合提出的多模态大模型视频理解能力基准MVBench,已入选CVPR 2024 Highlight论文名单。该研究通过构建包含20项复杂视频任务的评测基准,全面评估了现有多模态模型的视频理解能力,并提出了更强大的基线模型VideoChat2。

MVBench:全面评测多模态模型视频理解能力

联合团队在题为《MVBench: A Comprehensive Multi-modal Video Understanding Benchmark》的论文中提出的MVBench,由20项复杂视频任务组成,用于全面评测现有多模态模型的视频理解能力。同时,基于对已有多模态模型的缺陷分析,提出了更强大的基线模型VideoChat2。所有代码、模型权重、训练数据、评测数据均已开源。

传统评测方式的局限性

当前,多模态大模型能力评测存在多种方式:

  • 人类直接评测:被视作最直接有效的方法,但评测效率较低,且难以避免认知偏差。
  • 借助大语言模型评测:更加公正,但需要大语言模型拥有贴近人类的强大性能。
  • 传统问答评价方式:如Multiple-Choice QA,但传统数据集往往侧重角度单一,无法全面评价对话模型的能力。

MVBench的核心创新

时间理解任务设计

研究人员从MME、MMBench等图像基准中总结出9项空间理解任务,并延伸出20项时间理解任务。通过比较图像和视频任务的本质区别,确定了一种简单可扩展的方案,即首先总结基本的图像评测任务,再由这些任务出发,构建无法通过单帧有效解决的视频任务。

自动问答生成

联合团队设计了一套评测数据自动生成流水线,遵循以下原则:

  • 视频多样性:对不同的视频设计独立的问题
  • 时序敏感性:提取合适的视频长度
  • 问题复杂度:采用难度适中的问题

针对多选题的问题及选项生成,采用以下策略:

  • 问题方面:基于ChatGPT任务的定义,生成3-5个对应的问题随机选其一
  • 选项方面:设计两种策略,包括基于模版的构造和基于ChatGPT生成

评测提示词设计

联合团队设计了合理的系统提示词和高效的答案提示词,其中系统提示词用于激发模型的时间理解能力。针对对话模型难以直接输出选项的现状,通过构造带括号"()"的选项,控制对话模型输出的起始字符"Best Option: (",即答案提示词。

VideoChat2:更强大的基线模型

针对现有模型普遍存在的两大缺陷:

  • 缺乏多样的指令微调数据
  • 缺乏强视频编码器

联合团队设计了新的指令微调数据和模型架构。借鉴了InstructBLIP、M3IT思路,研究人员从现有的图像和视频数据集中转化出了1.9M统一形式的指令微调数据。

对于模型架构,研究人员采用了BLIP2结构,并基于强多模态视频编码器UMT,设计了渐进式跨模态训练流程。

实验结果

实验结果显示,部分开源对话模型在MVBench的时序理解任务表现不佳,而基线模型VideoChat2相比此前较强模型,评分提升近15%。消融实验表明,更多样的指令数据、图像视频联合训练,以及使用强视频编码器,都能显著提升模型性能。

开源资源

所有相关资源均已开源,包括:

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号