问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

四大前沿OCR技术研究:从轻量级模型到多模态文档理解

创作时间:
作者:
@小白创作中心

四大前沿OCR技术研究:从轻量级模型到多模态文档理解

引用
CSDN
1.
https://blog.csdn.net/2401_85375151/article/details/144238200

OCR(光学字符识别)是人工智能领域的一个重要研究方向,近年来随着多模态大模型的发展,OCR技术也迎来了新的突破。本文将介绍几个前沿的OCR相关研究工作,包括GOT-OCR 2.0、Vary、TextMonkey和mPLUG-DocOwl系列,这些工作在模型架构、训练方法和应用场景等方面都有创新性的突破。

GOT-OCR 2.0:轻量级端到端OCR模型

GOT-OCR 2.0是Vary团队提出的一个通用端到端OCR模型,具有以下特点:

  • 通用性强:能处理各种场景的OCR任务,支持普通文本和格式化文本(如Markdown、TikZ等)的识别
  • 交互式识别:支持通过坐标或高亮颜色引导的区域级识别
  • 动态分辨率:支持高分辨率输入,能处理多页文档
  • 轻量化设计:使用Qwen-0.5B作为解码器,整个模型只有580M参数量,视觉编码器只有80M

模型架构上分为三部分:视觉编码器+线性层+语言模型。训练分为三个阶段:预训练视觉编码器、完整模型训练、定制新特性。数据集包括自然场景文本、文档、乐谱、几何图形等多种类型。

Vary:通过视觉词表扩展VL模型的OCR能力

Vary是旷世和中科院合作提出的工作,主要创新点包括:

  • 视觉词表:通过一个小的语言模型作为解码器对CLIP-like ViT进行再训练,利用OCR数据作为正例,自然图像作为负例,得到一个具有新“词表”的ViT
  • 双流设计:新的ViT与原ViT的输出在concat后再输入到LLM中
  • 数据增强:使用PDF文档、图表数据作为正例,COCO作为负例

训练分为两步:第一步学习新词表,第二步合并训练。实验结果表明,Vary在OCR细节感知能力和下游任务上都有显著提升。

TextMonkey:滑动窗口注意力和token重采样

TextMonkey是华科大白翔老师团队的工作,主要创新点包括:

  • Shifted Window Attention:采用滑动窗口注意力机制来保持块与块之间的上下文联系
  • Token Resampler:通过相似度度量选择更重要的tokens,减少冗余
  • 支持文本定位:通过不同的提示词控制模型是否输出带bbox的OCR结果

模型数据前向传播流程包括:滑动窗口切片、特征提取、token重采样、LLM推理。实验表明,TextMonkey在保持高分辨率输入的同时,有效减少了token冗余。

mPLUG-DocOwl系列:文档理解的多模态模型

mPLUG-DocOwl系列是阿里X-PLUG团队的工作,专注于文档理解:

  • DocOwl 1.5:跨模态统一结构学习,支持图、表、PDF等
  • DocOwl 2:增加了多页OCR能力,采用稀疏visual token方案,一页OCR只需要324 tokens

主要创新点包括:

  • H-Reducer:通过卷积层聚合水平相邻的视觉特征,保留结构和空间信息
  • MAM:模态自适应模块,更好地区分视觉和文本输入
  • 多页压缩方案:通过全局图特征作为query,局部图特征作为kv,进行cross-attn压缩

训练分为三个阶段:单页预训练、多页预训练、多任务指令微调。实验表明,DocOwl 2在保持高分辨率输入的同时,显著减少了token消耗。

这些前沿研究展示了OCR技术在多模态大模型时代的最新进展,为未来的OCR应用提供了新的思路和方向。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号