问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

“博士级”模型GPT-o1折戟中学数学“陷阱”问题,准确率仅为24.3%

创作时间:
作者:
@小白创作中心

“博士级”模型GPT-o1折戟中学数学“陷阱”问题,准确率仅为24.3%

引用
CSDN
1.
https://blog.csdn.net/qq_27590277/article/details/142392065

OpenAI最新发布的GPT-o1模型在广泛基准测试中表现优异,但FudanNLP团队的最新研究却发现,该模型在面对中学数学"陷阱"问题时却表现不佳,准确率仅为24.3%。这一发现揭示了当前AI大模型在复杂推理任务中的局限性。


图一:最新发布的GPT-o1 在广泛的基准测试中优于 GPT-4o

研究背景与意义

近年来,大语言模型在许多要求复杂推理的任务(如编写代码,求解数学问题等)上实现了前所未有的成功,一些乐观的研究者将这些令人激动的进展看作是通用人工智能的火花。与之相对,也有研究者发现LLMs在许多十分简单的任务上出现了意料之外的问题。例如,最先进的GPT-4模型在3位数乘法问题上仅仅实现了59%的准确性。对于这种巨大差异背后原因的讨论对于构建更加健壮的LLMs具有十分重要的意义。

MathTrap数据集的构建与评测方法

FudanNLP团队构建了MathTrap数据集,通过在GSM8K和MATH数据集的基础上加入"陷阱",来测试模型的组合泛化能力。这些"陷阱"包括未定义的概念、条件缺失、直接冲突、间接冲突和违反常识等类型。数据集分为MathTrap_Public和MathTrap_Private两部分,其中MathTrap_Public已在GitHub上开源。

在评测方法上,团队使用准确率作为评价指标,并将模型在陷阱问题和原始问题上的准确率比值作为模型组合泛化能力的评估指标。同时,使用GPT-4作为评估工具,确保评估结果的准确性。

实验结果与分析

实验结果显示,即使是当前最先进的模型,在MathTrap数据集上的表现也大幅下降。比如在MathTrap_Private上,GPT-o1-preview API的测试准确率为38.0%,相比GPT-4 API的36.0%,几乎没有提升。而开源模型的表现更为逊色,Reflection-70B准确率为16.0%,Llama-3.1-8B准确率为13.5%,Llama-3.1-70B则是19.4%。

有趣的是,在网页端测试GPT-o1-preview时,模型会生成一个"思考"过程,如果在评测时,只要"思考"过程中包含了对陷阱的分析就算通过,那么GPT-o1-preview在MathTrap_Public上的准确率能提高到67.7%。但这种现象反映了当前大模型评测的局限性。

人类与AI的表现对比

作为对照实验,团队还评估了人类在MathTrap数据集上的表现。结果显示,人类在陷阱问题上的准确率达到了83.8%,在收到"问题中可能存在陷阱"的提示后,准确率更是上升到了95.1%。这表明人类在MathTrap数据集上展现出了强大的组合推理能力。

改进方法

研究团队尝试了自然语言提示、少样本示例和微调等方法来缓解大模型在MathTrap上的组合泛化缺陷。结果显示,这些方法在一定程度上可以提高模型的表现,但同时也可能带来正常问题性能的下降。

结论

这项研究揭示了当前AI大模型在处理需要灵活应用多领域知识的复杂问题时的局限性。MathTrap数据集为评估大模型的组合泛化能力提供了一个新的视角,也为未来AI研究指明了方向。

论文链接:https://arxiv.org/pdf/2405.06680
Github仓库:https://github.com/tongjingqi/MathTrap

本文原文来自CSDN,作者FudanNLP团队

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号