M3DocRAG:多模态文档理解框架的创新突破
M3DocRAG:多模态文档理解框架的创新突破
摘要
文档可视化问答(DocVQA)管道用于回答文档中的问题,具有广泛的应用。现有的方法侧重于使用多模态语言模型(MLM)处理单页文档,或者依赖于使用光学字符识别(OCR)等文本提取工具的基于文本的检索增强生成(RAG)。然而,在现实世界中应用这些方法存在困难:(a)问题通常需要跨不同页面或文档的信息,而传销无法处理许多长文档;(b) 文档通常在图形等视觉元素中包含重要信息,但文本提取工具会忽略它们。
我们介绍了M3DOCRAG,这是一种新颖的多模态RAG框架,可以灵活地适应各种文档上下文(封闭域和开放域)、问题跳(单跳和多跳)和证据模式(文本、图表、图形等)。M3DOCRAG使用多模式检索器和MLM查找相关文档并回答问题,因此它可以有效地处理单个或多个文档,同时保留视觉信息。由于之前的DocVQA数据集在特定文档的背景下提出问题,我们还提出了M3DOCVQA,这是一个新的基准,用于评估3000多个PDF文档(40000多页)的开放域DocVQA。
在三个基准测试(M3DOCVQA/MMLongBench Doc/MP DocVQA)中,实证结果表明,M3DOCRAG与ColPali和Qwen2 VL 7B的性能优于许多强基线,包括MP DocVQA中的最新性能。我们对不同的索引、MLM和检索模型进行了全面分析。最后,我们定性地表明,M3DOCRAG可以成功处理各种情况,例如当相关信息存在于多个页面上时,以及当答案证据仅存在于图像中时。
研究背景与问题
现有文档视觉问答(DocVQA)方法在处理多页、多文档以及复杂视觉格式文档时存在局限性。具体来说,现有方法主要存在以下问题:
- 单页处理限制:大多数现有方法主要针对单页文档设计,难以处理跨多页或多文档的问题。
- 视觉信息利用不足:现有方法往往依赖于文本提取工具(如OCR),容易忽略文档中的视觉信息(如图表、图像等)。
- 长文档处理能力差:现有的多模态语言模型(MLM)难以处理长文档,容易出现信息丢失或理解错误。
M3DOCRAG框架的核心思路
为了解决上述问题,研究者提出了M3DOCRAG框架,其核心思路如下:
- 多模态嵌入空间构建:使用ColPali模型将文本查询和页面图像投影到一个共享的多模态嵌入空间,实现文本和视觉信息的统一表示。
- 多模态检索:通过多模态检索模型ColPali检索与查询最相关的页面,使用MaxSim评分计算查询与页面的相关性。
- 问答生成:利用多模态语言模型(如Qwen2-VL)对检索到的页面图像和查询进行视觉问答,生成最终答案。
M3DOCVQA基准数据集
为了评估M3DOCRAG框架的性能,研究者还提出了M3DOCVQA基准数据集,该数据集具有以下特点:
- 大规模:包含3368个PDF文档,总计41005页。
- 多样性:涵盖文本、图像和表格等多种模式,捕捉现实世界文档的典型复杂性和多样性。
- 多跳问题:包含2441个多跳问题,需要跨多个文档或页面才能找到答案。
实验结果与分析
在三个基准测试(M3DOCVQA/MMLongBench Doc/MP DocVQA)中,M3DOCRAG框架展现了显著的性能优势:
- 开放域文档问答:M3DOCRAG显著优于文本RAG,特别是在非文本证据源的情况下。
- 封闭域文档问答:M3DOCRAG提升了长文档理解的能力。
- 索引策略优化:不同的页面索引策略(如IVFFlat和IVFPQ)在保持高准确率的同时显著提高了检索速度。
- 模型选择:Qwen2-VL 7B模型在多个基准测试中表现优异,成为M3DOCRAG框架的默认多模态语言模型组件。
总结
M3DOCRAG框架通过结合多模态检索与生成模型,有效解决了多页多文档理解中的复杂问题。该框架不仅在实验中展现了卓越的性能,还通过M3DOCVQA基准数据集为未来的研究提供了新的方向。这一工作对于推动文档理解技术的发展具有重要意义。