华中师范大学杨宗凯团队:用于数学题目生成的教育领域多模态模型
华中师范大学杨宗凯团队:用于数学题目生成的教育领域多模态模型
华中师范大学杨宗凯团队开发的COMET模型在数学题目生成领域取得了突破性进展。该模型基于"经验之塔"理论,通过三阶段微调框架,实现了题干生成和问题求解能力的系统性提升。研究团队还构建了CMM12K数据集,为后续研究提供了重要的评测基准。
研究背景与意义
生成式人工智能正以前所未有的方式推动教育变革。尽管许多研究者已在探索多模态大模型(LMM)与教学相结合的可能性,但在教育资源生成,尤其是数学题目生成领域的深入研究仍显不足。数学题目作为重要的知识载体与考核手段,其自动生成技术在教学过程中具有重要的应用价值。然而,传统的“解题”与“出题”分离的研究路径,以及以单一数据结构和统一训练目标为主流的大模型微调范式,限制了数学题目生成在实际教学场景中的应用。
研究方法与创新
本文首先从能力互促与应用逻辑的角度出发,将题干生成与题目解答统一到数学题目生成这一框架中。其次,提出了一种基于“经验之塔”的三阶段微调框架,通过引入类人学习的思想,探索和论证了大模型训练过程类比人类学习经历的有效性。通过剖析职业教师的成长历程,将微调数据按照抽象、观察和实践三个层次的经验内核进行划分,并在此基础上设计了多种精细化的数据构造与注入方法。最后,本工作构建了一个中文多模态数学题目数据集CMM12K,为后续多模态数学题目生成提供测评基准。
创新点
- 从以数据为中心的人工智能视角出发,基于“经验之塔”理论构建了面向数学题目生成的多模态大模型(COMET)。据研究团队所知,这是在单一多模态大模型上系统性提升解题与出题能力的研究。
- 提出了基于“经验之塔”的三阶段微调框架,并提供了抽象、观察和实践经验的数据流生成与知识注入算法。
- 构建了一个中文多模态数学题目数据集(CMM12K),涵盖4种题型,共计12,000个样本。这一工作可缓解中文多模态数学题目语料的匮乏现状,并为后续研究提供评测基准。
- 多个数据集上的大量实验验证了所提框架和模型的先进性与有效性。
实验结果
在GSM8K、TAL-SCQ5K、CMM12K三个数据集上,执行COMET与9个基线(3个闭源模型和6个开源模型)的性能对比。如下图所示,在三类任务的共计15个评分维度上,COMET在多个维度上达到了和GPT-4o相当的性能。在开源模型中,COMET在15个评估维度中的12个维度上达到了SOTA。值得注意的是,COMET在大多数维度上保持了绝对领先,且参数规模相对较小(7B)。
结论
研究团队提出了“经验之塔”增强的用于数学题目生成的大型多模态模型(COMET)。为探索将大型多模态模型(LMM)训练类比人类学习的可能性,依据“经验之塔”教育理论将教师成长过程划分为三个层次的经验,并指导不同阶段训练数据的构建。设计了一个三阶段微调框架,以增强单个大型多模态模型(LMM)内题干生成和问题求解的能力,以满足教育应用的需求。此外,构建了CMM12K数据集以缓解该领域中文多模态语料的稀缺状况。大量实验已证明了所提模型和框架的先进性及有效性。