多模态大语言模型对图表数据的理解能力评估
创作时间:
作者:
@小白创作中心
多模态大语言模型对图表数据的理解能力评估
引用
CSDN
1.
https://blog.csdn.net/weixin_32771227/article/details/140900180
虽然目前的MLLMs在科学图表解读方面取得了一定成果,但在处理自然图像与图表图像的数据差异时,尤其是在从图表中提取数值信息的能力上存在不足。为了克服这一挑战,研究团队通过三种策略优化了模型的图表理解能力:
- 一是引入原始数据值进行预训练以增强对图表数据的理解;
- 二是利用文本表示随机替代图像,在端到端微调过程中提升模型的语言推理到图表解析技能;
- 三是要求模型先解析图表数据再作答,以提高准确性。
基于这些发现,研究人员开发了CHOPINLLM,这是一种专为深度图表理解设计的MLLM,它不仅能够解析多种类型的图表,包括无标注图表,还能保持稳健的推理能力。此外,文中还建立了一个新的评估基准,用于测试MLLMs对不同图表类型和理解层次的掌握情况,实验结果证实了CHOPINLLM在图表理解方面的出色性能。
1 MLLMs在图表理解领域存在的问题
当前数据集的局限性,如图表的过度简化和同质化,以及模板化问题设计,可能夸大了模型的实际进展。MLLMs在从图表中精确提取数值信息方面仍有不足,特别是在数值未直接标注的情形下。误导性问题更是凸显了模型在复杂情境下的脆弱性。此外,现有评估方法未能充分反映MLLMs在视觉数学问题解决上的全貌,而训练这类模型所需的庞大资源限制了其可扩展性。随着图表类型的日益丰富与复杂,模型需不断提升以满足更高层次的分析需求。
2 如何改善MLLMs的图表理解能力
(1)融合策略
- 引入原始数据值:在预训练阶段融入图表的原始数值数据,这有助于模型更好地理解和关联图表中的视觉元素与实际数值,从而显著提升对图表数据的理解能力。
- 生成多样化图表数据:通过创新的数据生成管道,创建包含多种图表类型、主题和样式的大型数据集,确保模型接触到广泛的变化,增强其理解和适应能力。
- 合成数据的利用:在不同的训练阶段使用合成数据,实验表明,在预训练和微调阶段早期使用合成数据比仅在LoRA下游微调阶段使用更为有效,有助于模型更好地学习图表理解的基础知识。
(2)端到端微调技术
- 随机文本表示替换:在端到端微调过程中,随机地用图表的文本描述代替图像本身,这一过程帮助模型将语言推理能力迁移至图表解读技能,提高模型的泛化能力。
- 两步法微调:首先要求模型从图表中提取底层数据,然后再基于这些数据回答问题,这种策略进一步提高了模型回答图表相关问题的准确度。
(3)图表数据的处理方式
- 特征对齐预训练:通过特征对齐的预训练,模型可以学习到图表图像与其对应的文本描述之间的关联,这有助于模型更有效地从图表中抽取信息。
- 多阶段微调:在多个阶段进行微调,特别是在LoRA微调之前,将合成数据与真实图表数据结合使用,可以优化模型对图表数据的偏好,避免输出偏向与下游任务不匹配的情况。
- 构建全面的基准测试:建立一个包含不同类型图表和不同理解层级的新基准测试,用于全面评估MLLMs在图表理解上的能力,确保模型不仅能在基本数据提取、总结上表现出色,也能处理复杂的数学推理和推断性问题。
3 结语
本文介绍了针对图表理解定制的多模态大型语言模型(MLLM)的最新进展,通过改进预训练方法以提升模型对图表数据的解析能力和推理准确性,同时提出了一种新模型CHOPINLLM及相应的评估基准,展示了其在各类图表理解任务中的优异表现。
论文题目:On Pre-training of Multimodal Language Models Customized for Chart Understanding
论文链接:https://arxiv.org/abs/2407.14506
热门推荐
科普:增程和插混到底有啥区别?为啥都愿意买增程不愿意买插混?
神经酸:大脑和神经系统的守护者
揭示微生物宏代谢的确定性动态规律:一项对厌氧生物降解的多组学研究
中国科学院第二十届公众科学日:感受科学魅力,体验科普盛宴
如何理解编程,如何理解编程思维
实证回测:基于估值的沪深300指数投资策略
喝水胃胀气怎么回事?消化内科专家详解原因和对策
宝泉是河南省内集山水、洞穴、泉瀑、峡谷、植被、气象等多种景观于一体的4A景区
舟山群岛的地理位置与地理特征
从巅峰到没落,中国最大的渔场舟山渔场,为何会“富极而衰”?
Vue.js与Canvas结合使用详解:从入门到实战
哪个酒店管理系统最适合数字化运营?
自己研发脚本软件的完整指南
袁术为何轻视其兄袁绍:嫡庶之别与性格差异
让《鸣潮》口碑逆转的长离,堪称二游角色设计教科书
从鳄鱼法则到刺猬理论:解密八个动物相关经典市场理论
影响因子是什么?如何计算?有哪些局限性?
10大养不死冷水鱼,有水就能活!新手党的福音
美国本科统计学专业建议选吗?
如何改善房屋朝北的采光和居住舒适度?这种改善怎样符合实际条件?
如何用预算控制站群服务器成本?IP数量与费用对照解析
干货满满!FPGA硬核和软核处理器的区别
《越女剑》当中,为什么阿青的武功被吹的那么神?
《越女剑》当中,为什么阿青的武功被吹的那么神?
虚拟人和数字人的区别到底是什么?
2025年属蛇人在职场上的表现分析
从宋代女子参与经济活动,看女性地位的提高
谁说宋朝女性受“贞洁观”影响,地位低下?她们的地位也是很高的
如何为猫咪正确使用眼药水(猫咪眼睛健康保护攻略)
这18个好习惯,越早养成越好!