研究揭示:GPT-4准确率从97.6%暴跌至2.4%
研究揭示:GPT-4准确率从97.6%暴跌至2.4%
斯坦福大学和加州大学伯克利分校合作进行了一项名为“ChatGPT的行为如何随时间变化?”的研究,结果显示,随着时间的推移,GPT-4的响应能力不仅没有提高,反而随着语言模型的进一步更新而变得更糟糕。
研究小组评估了2023年3月和2023年6月版本的GPT-3.5和GPT-4在四个不同任务上的表现,分别为:解决数学问题、回答敏感/危险问题、代码生成以及视觉推理。
他们使用了一个包含500个问题的数据集评估模型,测试模型必须确定给定的整数是否是素数。结果表明,GPT-4(2023年3月版)在识别质数方面表现非常出色,正确回答了其中的488个问题,准确率达97.6%。但GPT-4(2023年6月版)在这些问题上的表现却非常糟糕,只答对了12个问题,准确率仅为2.4%。
而与之相反,GPT-3.5(2023年6月版)在这项任务中的表现则要比GPT-3.5(2023年3月版)好得多。
研究团队还使用了“Chain-of-Thought”(思维链)来帮助模型进行推理,提出“17077是一个质数吗?一步一步地思考”的问题。但最新版本的GPT-4不仅错误地回答了“否”,还没有生成解题的中间步骤。
与3月份相比,GPT-4在6月份不太愿意回答敏感问题。而且与3月份相比,GPT-4和GPT-3.5在6月份生成代码时也出现了更多格式错误,质量明显下降。
对于GPT-4,可直接执行的生成代码百分比从3月份的52.0%降至6月份的10.0%;GPT-3.5也从22.0%降至了2.0%。两种模型的冗余度也有小幅增加,其中GPT-4增加了20%。
视觉推理方面,GPT-4和GPT-3.5的性能都略有提高。但对于90%以上的视觉推理查询,3月份和6月份版本生成的结果完全相同。这些服务的总体性能也很低:GPT-4为27.4%,GPT-3.5为12.2%。且在某些特定问题上,GPT-4在6月份表现要比在3月份差。
研究人员认为,这些结果表明,“相同”的LLM服务的行为会在相对较短的时间内发生重大变化,凸显了对LLM质量进行持续监控的必要性。
“我们计划通过定期评估GPT-3.5、GPT-4和其他LLM在不同任务中的表现,在一项持续的长期研究中更新本文介绍的结果。对于依赖LLM服务作为其日常工作流程组成部分的用户或公司,我们建议他们对其应用程序进行类似的监控分析。”