科学家研发图表理解大模型,可解析18种不同类型图表,能用于多模态知识的挖掘
科学家研发图表理解大模型,可解析18种不同类型图表,能用于多模态知识的挖掘
近日,上海交通大学和上海人工智能实验室的研究团队在图表理解领域取得重要进展。他们设计了一个名为ChartX的评估基准,并开发了一个专门用于处理图表理解任务的基座模型ChartVLM。研究显示,ChartVLM在图表处理任务上的表现超越了其他多模态大模型,其性能甚至可以媲美GPT-4V。
这一基准集涵盖 18 种不同类型的图表,包括 7 项测试任务和 22 个学科主题的高品质图表数据。
针对不同的图表任务,课题组引入定制化的评估方法,例如采用 SCRM(Structuring Chart-oriented representation Metric)的评价标准,来综合评估视觉图表中的结构化信息提取能力。
此外,他们还打造出一款全新的图表理解基座模型 ChartVLM,以用于专门处理图表理解、几何图像推理等多模态任务,这些任务存在高度依赖图像感知、以及数值解释性等特点,而 ChartVLM 可以很好地理解这些任务。
(来源:arXiv)
研究中,该团队以 ChartX 评价基准为依托,针对常见多模态大模型以及他们研发的 ChartVLM 进行综合评估。
测试成果显示:ChartVLM 在图表处理任务上表现十分出色,超越其他通才模型和一些针对图表开发的专才模型。
“其性能堪比 GPT-4V,我们相信本次研究将助力于构建更加全面的图表评估数据集,并且促进基于结构化表征的多模态大模型的进一步开发。”课题组表示。
整体来看,图表大模型将能用于以下两大方面:
其一,可以在垂直领域带来具体应用。关于此又可以分为三个细分应用,详细来说:
首先,可用于数据分析与可视化:即图表大模型能理解和生成各种类型的图表,比如生成统计图表和数据图表等,从而帮助用户更好地理解数据之间的关系和趋势,进而做出更准确的决策。
其次,可用于金融领域:即图表大模型可用于分析股票市场走势、财务报表等,帮助投资者和分析师更好地理解市场动态和公司业绩,从而制定更有效的投资策略。
再次,可用于医疗健康:即图表大模型可用于分析医学影像数据,帮助医生诊断疾病,并能提供个性化的治疗方案。此外,图表大模型还可以用于药物研发,帮助分析试验数据、以及优化药物设计。
其二,可用于科研领域的多模态知识挖掘。
这一过程涉及到从经济学中的折线图、地理学中的热力图、军事领域的雷达图等多种数据模态,针对关键知识进行提取和整合。
通过将结构化信息作为图表的统一表征,就能覆盖不同科学领域的多种图表类型,这不仅能帮助模型更加准确地理解图像与文本之间的关联,还能深入挖掘各个学科的专业知识。
凭借大语言模型的卓越推理能力,能为科学图表的知识挖掘提供有力支持。基于结构化的表征,它能跨越不同科学领域和不同模态之间的知识界限,促进跨学科知识的深度融合。
通过此,不仅能够更全面地理解和利用不同领域之间的关联性,还能发掘新的研究课题。
(来源:arXiv)
审稿人评价称,ChartX 基准测试集比之前的测试集具备更好的多样性,包含了更广泛的图表类型,并且拥有大规模的评估集和多种评估指标,这使得它有潜力成为评估多模态图表模型的标准。
对于 ChartVLM 模型在 ChartX 基准测试集中的表现,审稿人也给予了充分肯定。
其表示:“该模型在多个任务上取得了令人印象深刻的表现,例如在问答任务中,模型的 GPT 准确度比 ChartLLama 高近 27%。”
尽管 GPT-4 在一些认知任务上表现超过 ChartVLM,但在其他任务上本次方法展现出了更强的性能。
论文第一作者夏纫秋补充称:“此外,用户指令适配机制也得到了审稿人的认可。依赖这一机制只需使用必要的解码器模型,就能解决特定的用户任务,尤其在解决轻量级任务时效率十分之高。”
而在后续,他们将整合多知识、多类别的图表数据,以扩展 ChartVLM 的功能范围,使其能适应更多领域的图表类型和下游任务。
基于课题组在图表大模型中所积累的经验,他们也将探索通用结构化信息表征学习。希望通过融合多模态大模型的力量,力争解决诸如几何求解、定理证明等复杂型多模态推理问题。
参考资料:
1.https://arxiv.org/abs/2402.12185
本文原文来自DeepTech深科技