ARC-AGI 基准即将突破,但创始人警告测试设计存在缺陷
ARC-AGI 基准即将突破,但创始人警告测试设计存在缺陷
ARC-AGI(通用人工智能抽象和推理语料库)是人工智能领域的重要基准测试,自2019年推出以来,一直用于评估AI系统的推理能力。近期,该测试迎来重要进展,但创始人弗朗索瓦·肖莱却发出警告:成绩提升并不意味着我们接近实现真正的通用人工智能(AGI)。本文将深入探讨ARC-AGI测试的设计缺陷及其对AI研究的启示。
ARC-AGI的现状与挑战
ARC-AGI自2019年推出以来,AI系统在测试中的表现始终不尽如人意。迄今为止,表现最好的系统也只能解决不到三分之一的任务。肖莱指出,这一现状主要归咎于当前人工智能研究对大型语言模型(LLM)的过度依赖。
LLM的局限性
肖莱在社交平台X上的一系列帖子中解释道:“LLM模型依赖于从训练数据中提取模式,而不是进行独立的推理。它们只是‘记住’了模式而非生成新推理。”这种依赖记忆而非推理的特性,使得LLM在处理未见过的新情境或进行真正的“推理”时显得力不从心。
图源备注:图片由AI生成,图片授权服务商Midjourney
100万美元竞赛的结果与反思
尽管ARC-AGI的进展缓慢,肖莱和Zapier创始人Mike Knoop并未放弃。他们于2024年6月联合发起了一项100万美元的竞赛,鼓励开源AI挑战ARC-AGI基准。在17,789份参赛作品中,表现最好的AI系统仅获得了55.5%的分数,远低于实现“人类水平”所需的85%标准。
Knoop在博客文章中指出,这一成绩并不意味着我们离实现AGI更近,反而凸显了ARC-AGI中部分任务过于依赖“蛮力”解决方案,未必能为真正的通用智能提供有效信号。ARC-AGI的设计本意是通过提供复杂、从未见过的任务来测试AI的泛化能力,然而,这些任务能否有效评估AGI仍然存疑。
批评与争议
ARC-AGI的创建者也面临来自同行的批评,特别是在AGI定义方面的模糊性。OpenAI的一位员工最近表示,如果将AGI定义为“在大多数任务上比大多数人类表现更好”的人工智能,那么AGI实际上已经实现。然而,肖莱和Knoop则认为,ARC-AGI基准的现有设计尚未完全实现这一目标。
未来展望
肖莱和Knoop计划在2025年发布第二代ARC-AGI基准,并举行新的竞赛,以解决当前测试中的不足。他们表示,新的基准将更加聚焦于推动AI研究向更加重要的方向发展,加速AGI的实现进程。
然而,修复现有基准并非易事。肖莱和Knoop的努力表明,定义人工智能的智能,尤其是在通用智能领域,仍然是一项艰巨而复杂的任务。