OpenAI新模型o3在ARC-AGI基准测试中取得突破性进展
OpenAI新模型o3在ARC-AGI基准测试中取得突破性进展
OpenAI最新发布的模型o3在ARC-AGI基准测试中取得了突破性进展,标准计算条件下得分高达75.7%,高计算版本更是达到了87.5%。这一成就不仅远超前代模型,也引发了AI研究界的广泛关注。
OpenAI发布的最新模型o3在ARC-AGI基准测试中取得了令人瞩目的成绩。在标准计算条件下,o3的得分高达75.7%,而高计算版本更是达到了惊人的87.5%。这一突破性进展令AI研究界感到意外,但同时也引发了关于人工智能通用性(AGI)是否已被破解的讨论。
ARC-AGI基准测试基于抽象推理库(Abstract Reasoning Corpus),旨在评估AI系统适应新任务和展示流动智力的能力。该测试包含一系列视觉谜题,需要理解基本概念如物体、边界和空间关系。虽然人类能够轻松解决这些谜题,但目前的AI系统在这一领域仍面临巨大挑战。因此,ARC被认为是AI评估中最具挑战性的标准之一。
o3的表现显著优于以往的模型。此前,o1-preview和o1模型在ARC-AGI上的最高得分仅为32%。而在此之前,研究人员Jeremy Berman采用混合方法将Claude3.5Sonnet与遗传算法结合,取得了53%的分数。o3的出现则被视为AI能力的一次重大飞跃。
ARC的创建者François Chollet对o3的表现给予了高度评价,认为其在新任务适应能力上达到了前所未有的水平。然而,他也强调,尽管o3在ARC-AGI上取得了重大进展,但其仍未达到AGI的标准。o3在某些简单任务上依然表现不佳,显示出与人类智能之间的根本差异。此外,o3在推理过程中仍然依赖外部验证,这与AGI的独立学习能力相去甚远。
关于o3如何达到这一突破,目前尚无详细的信息。有科学家猜测,o3可能使用了一种程序合成方法,结合链式思维和搜索机制。而另一些科学家则认为,o3可能只是通过进一步扩展强化学习而来。
尽管o3的表现出色,但其计算成本也相当高昂。在低计算配置下,解决每个难题的费用在17到20美元之间,需消耗3300万个代币;而在高计算配置下,计算成本则增加至172倍,使用数十亿个令牌。不过,随着推理成本的逐步降低,这些开销可能会变得更加合理。
Chollet团队正在开发新的挑战性基准,以检验o3的能力,预计会将其得分降低到30%以下。他指出,真正的AGI将意味着创造出对普通人来说简单但对AI来说困难的任务几乎变得不可能。