OpenAI o3模型再陷争议,疑似翻版Theranos?
OpenAI o3模型再陷争议,疑似翻版Theranos?
近日,OpenAI的最新推理模型o3在数学基准测试FrontierMath上的表现引发了广泛争议。这一争议不仅涉及技术层面,更触及了AI领域长期存在的透明度和伦理问题。
事件始末:OpenAI的秘密资助
FrontierMath是由Epoch AI开发的一个高级数学推理基准测试,旨在评估AI系统解决复杂数学问题的能力。该测试集包含了由60多位世界顶级数学家设计的数百个原创问题,每个问题都需要数小时甚至数天才能解决。
2024年12月,OpenAI发布了其最新推理模型o3,并宣布该模型在FrontierMath上取得了突破性进展,准确率相比前代模型提升了12倍,达到了惊人的25.2%。这一成绩震惊了整个AI社区,因为FrontierMath的难度之高,以至于此前最先进的模型也只能解决不到2%的问题。
然而,随后有爆料称OpenAI实际上资助了FrontierMath项目,并且可以访问大部分数据集。这一消息引发了AI领域的广泛关注和讨论。因为如果OpenAI确实接触到了测试集,那么他们宣称的结果可信度就值得怀疑。
Epoch AI首席数学家Elliot Glazer对此进行了回应。他承认了自己的错误,并对因为没有被告知真相而自主作出贡献的数学家致以歉意。而对于o3惊人的25.2%准确率,他只是个人层面上表示相信,却没有一个真实可靠、有理有据的保证。
Epoch AI联创Tamay Besiroglu也正式发布了博客作为回应。对于此次事件,Tamay给出的解释是:“我们的合同明确禁止披露资金来源信息以及OpenAI可以访问大部分(但不是全部)数据集的事实。”
技术分析:性能提升的真相
对于o3的性能提升,业内专家提出了不同的解释。一种观点认为,OpenAI可能直接将测试数据混入了训练数据中,这种做法虽然能短期内提升模型表现,但会导致模型缺乏泛化能力。另一种观点则认为,OpenAI可能只是利用测试数据来指导训练数据的整体设计方向和目标,以及设计推理路径。
谷歌DeepMind的研究员Ted Xiao分析认为,这种影响可以有两个极端的解释:
- 糟糕,OpenAI正在操纵benchmark,还把测试题目泄露进训练数据里了!
- OpenAI只是用FrontierMath的私有题库来指导新训练数据的整体设计方向和目标,以及设计推理路径。
当然了,也有没那么极端的。比如,稍微改改题目内容创建新的训练数据,这样从技术角度来说,确实没有直接用测试数据中的token来训练。
纽约大学教授Gary Marcus对OpenAI的行为表示批评,认为其缺乏透明度。他指出,OpenAI在没有充分披露的情况下使用了测试数据,这可能影响了模型的评估结果。
透明度问题:AI领域的长期挑战
这一事件再次凸显了AI领域长期存在的透明度问题。研究显示,随着预训练数据的不断扩大使用,基准数据集泄漏现象变得越来越突出,这加剧了训练过程的不透明性和当代大型语言模型中通常未公开包含监督数据的问题。这个问题扭曲了基准的有效性,促进了潜在的不公平比较,阻碍了该领域的健康发展。
为了解决这个问题,有研究者提出了“基准透明卡”(Benchmark Transparency Card)的概念,鼓励清晰记录基准使用情况,促进大型语言模型的透明和健康发展。这一提议得到了AI社区的广泛支持。
影响与启示:重塑AI领域的信任
这一事件对AI领域的发展具有重要启示。首先,它提醒我们重视模型评估的公正性和透明度。AI系统的性能评估应该建立在公平、透明的基础上,任何可能影响评估结果的因素都应该被充分披露。
其次,这一事件也引发了对AI伦理的深入思考。随着AI技术的快速发展,如何确保技术发展的同时不牺牲透明度和公平性,成为了一个亟待解决的问题。
最后,这一事件也提醒我们,AI领域的竞争不应该仅仅停留在技术层面,更应该关注伦理和透明度。只有建立在透明、公正基础上的技术进步,才能真正推动AI领域的健康发展。
OpenAI的o3模型在FrontierMath上的表现引发了广泛争议,这一事件不仅涉及技术层面,更触及了AI领域长期存在的透明度和伦理问题。它提醒我们,AI系统的性能评估应该建立在公平、透明的基础上,任何可能影响评估结果的因素都应该被充分披露。同时,这一事件也引发了对AI伦理的深入思考,提醒我们关注伦理和透明度,推动AI领域的健康发展。