问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

上海人工智能实验室:LLM公式识别指标CDM

创作时间:
作者:
@小白创作中心

上海人工智能实验室:LLM公式识别指标CDM

引用
CSDN
1.
https://blog.csdn.net/weixin_46739757/article/details/142290723

上海人工智能实验室提出了一种新的公式识别评估指标CDM(Character Detection Matching),通过将LaTeX公式转换为图像格式并进行视觉特征匹配,能够更准确和公平地评估公式识别模型的性能。

📖标题:CDM: A Reliable Metric for Fair and Accurate Formula Recognition Evaluation
🌐来源:arXiv, 2409.03643

摘要

🔸由于数学表达式的结构复杂和符号多样,公式识别提出了重大挑战。尽管公式识别模型不断进步,但这些模型采用的评估指标(如BLEU和编辑距离),仍然存在明显的局限性。他们忽略了这样一个事实,即同一公式具有不同的表示形式,对训练数据的分布高度敏感,从而导致公式识别评估中的不公平。

🔸为此,我们提出了一种字符检测匹配(CDM)度量,通过设计图像级别而不是LaTexlevel度量分数来确保评估的客观性。具体来说,CDM将模型预测的LaTeX和地面真实LaTeX公式渲染为图像格式的公式,然后采用视觉特征提取和定位技术进行精确的特征级匹配,并结合空间位置信息。与之前仅依赖于基于文本的字符匹配的BLEU和编辑距离度量相比,这种空间感知和字符匹配方法提供了更准确和公平的评估。实验上,我们使用CDM、BLEU和ExpRate指标评估了各种公式识别模型。

🔸结果表明,CDM更符合人工评估标准,并通过消除不同公式表示引起的差异来提供跨不同模型的更公平的比较。

🛎️文章简介

🔸研究问题:现有公式识别评估指标(如BLEU和编辑距离),在评估公式识别质量时存在的不可靠和不公平的现象。

🔸主要贡献:论文提出了一种用于公式识别评估的可靠指标CDM,并通过实验验证了其在评估公式识别质量方面的优越性。

📝重点思路

🔺相关工作

🔸公式识别算法:最初采用特定的语法规则来表示公式的空间结构,后续结合了深度学习算法和树模型。

🔸公式识别评估指标:BLEU最初是针对机器翻译任务提出的n元语法匹配,编辑距离衡量将一个文本转换为另一个文本所需的编辑步骤,ExpRate是指文本完全匹配的样本占样本总数的比例,但公式是轻微的字符未对齐都无法使用。

🔺论文方案

🔸局限性:对现有的公式识别评估方法进行了详细分析,指出了ExpRate和BLEU等指标的不可靠性。

🔸提出评估指标CDM:将预测的LaTeX公式和真实LaTeX公式转换为图像格式,并将每个字符视为独立的目标进行匹配,从而评估公式识别的质量。

🔸数据集构建:构建了一个名为Tiny-Doc-Math的评估数据集,该数据集主要从arXiv上的数学和计算机科学论文中提取公式,并进行手动验证。

🔸实验验证:在多个主流模型和数据集上进行广泛的实验,验证CDM的有效性,并与传统的评估指标进行了对比分析。

🔎分析总结

🔸CDM的优越性:CDM在评估公式识别质量方面优于传统的评估指标(如BLEU),特别是在处理公式表达风格的多样性时,CDM能够更准确地反映识别的准确性。

🔸CDM的稳定性:CDM在面对公式书写风格的变化时保持稳定,而BLEU的评分则分散,表明CDM在评估公式识别时更为可靠。

🔸模型性能对比:尽管某些模型(如GPT-4o)在BLEU评分上表现较好,但在CDM评分上表现较差,这表明BLEU可能无法准确反映模型的公式识别能力。

🔸数据选择的影响:通过使用CDM进行训练数据选择,可以在仅使用不到20%的数据的情况下,达到与使用整个数据集相当的性能。

💡个人观点

论文的创新点在于通过图像空间中的字符匹配来评估公式识别的质量,克服了现有指标在处理公式多样性时的不足。

附录

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号