问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

图灵测试对AI真的有用吗?从图灵测试到ARC-AGI的AI智能测试演进

创作时间:
作者:
@小白创作中心

图灵测试对AI真的有用吗?从图灵测试到ARC-AGI的AI智能测试演进

引用
1
来源
1.
https://byolio.top/2024/11/16/TuringTest/

图灵测试作为人工智能领域最具影响力的测试方法之一,自1950年提出以来一直备受关注。然而,随着AI技术的快速发展,图灵测试的有效性也受到了越来越多的质疑。本文将探讨图灵测试的局限性,并介绍其他AI智能测试方法,以期为读者提供更全面的视角。

引子

计算机科学之父艾伦·图灵(Alan Turing)在1950年发表了人工智能领域具有里程碑意义的论文《Computing Machinery and Intelligence》,并提出了一个革命性的问题:"Can machines think?"。在这篇论文中,他设计了一个测试方案——图灵测试(Turing test),用以判断机器是否能够表现出与人类相似的智能。然而,随着AI浪潮的到来,图灵测试是否依然有效,成为了人工智能领域一个备受争议的话题。

图灵测试

图灵测试的设定通常是这样的:一个人类评审员通过与一个人类和一个机器进行对话,评审员的任务是判断哪个是机器,哪个是人类。如果评审员无法正确辨别,或者误判的概率非常高,那么机器就被认为通过了图灵测试。

这种测试的好处是其巧妙地将机器是否能拥有意识、情感或思考能力的复杂难以判断的问题转化为了判断其是否能够成功模仿人类,因此很多人称其为一种模仿游戏。

图灵测试的局限

图灵测试作为一种行为上的模仿游戏,不可避免地成为了一种行为主义判断和理解事物的基准,但其会与认知主义产生不可避免的冲突。认知主义者认为外在行为表现并不能代替更为重要的内在认知,仅凭外在的行为表现并不能确定机器具备智能,并进行了著名的中文房间对其进行反驳。

除此之外,评审员数量、评审员误判的阈值、问题类型、测试时间和环境、评审员的背景与能力等都没有准确的定论,这些因素都会对图灵测试的结果产生影响,尤其是评审员是否日常使用AI对于实验结果影响巨大。

而且图灵测试讲究的是如何模拟人类,换一句话说就是如何欺骗人类,以此作为目标故意在问题上错答或回答不知道本身就是没有意义的,因为人工智能存在的意义应该是如何提高生产力,将人们从繁重的体力劳动中解放出来。

中文房间

反对图灵测试的实验中,最著名的当属约翰·希尔勒的中文房间实验。希尔勒设想自己被关在一个密闭的房间里,不懂中文,但手边有一本详细的规则手册。有人从窗口递进一张写有中文问题的纸条,他只需根据手册的规则将这些字符组合成合适的回答,再将答案递出。

中文房间实验突出了图灵测试的几个关键局限:

  1. 语法vs语义:图灵测试的结果依赖于外在行为(语法正确的输出),而中文房间实验强调语义理解的重要性——仅仅生成正确答案并不等同于真正的理解。
  2. 模仿而非智能:如果机器的目标仅是模仿人类行为,那么它可能擅长伪装,但不一定具备认知能力。例如,现代大语言模型能够模拟对话,但它们的理解能力受到质疑。
  3. 意识和认知的缺失:希尔勒指出,即便一个系统能通过图灵测试,它依然可能没有“意识”或“认知”,因为它只是在执行规则,而不是在思考。

虽然因此赞同和反对约翰·希尔勒的大有人在,但其确实也提供了对于机器内部认知测试的新的思考思路。

LLM

了解大语言模型(LLM)原理的都知道其本质上就是一个黑盒实验,基于模式统计和统计预测去回答人类的问题,其的幻觉输出本身就说明其缺乏真正的知识理解和推理能力。因此,在去年发表在Nature中的《ChatGPT broke the Turing test — the race is on for new ways to assess AI》中虽然表明chatgpt-4成功通过了图灵测试,但人们对其是否存在智能也是本身存在怀疑。

测试集方法

因为图灵测试在以上诸多方面具有明显的局限性,所以人们想出了用测试集测量AI智能性的方法,即用不同的测试集测试包含各类问题,测试其正确率并进行打分对模型进行量化。这种方法通过构建多样化的测试集,从不同角度评估AI的能力。

但这样做也依旧存在明显地缺点,首先模型做题能力并不完全等于模型泛化能力,其次模型在某些特定方面很强并不等于其具有通用性,除此之外模型的训练数据也会影响其答题分数,训练的越多的方面的答题越准确,这些原因都让其结果难以具有代表性。

ARC-AGI测试

2019年François Chollet提出了ARC(Abstraction and Reasoning Corpus),用于评估通用人工智能的能力。ARC是一种新颖的测试方法,专注于衡量机器的抽象推理和归纳能力。

如图所示,AI必须要通过前三组数据找出其应该返回与其他红色片段不同的红色片段的规律,才能正确返回对应图片的红色片段。因为其需要AI判断图片内在抽象逻辑,所以这种方法需要AI具有一定的泛化能力,也因此更可以作为一个代表性测试方案用于判断此AI是否具有智能。

总结

人工智能的测试从早期的图灵测试,到现代测试集评估,再到ARC-AGI测试方法,都在不断探索如何科学衡量机器智能的真正能力。在未来的智能评估方法中,更需要兼顾模型的泛化能力、认知深度和适应性,以便真正揭示AI在复杂环境中的潜力,推动其朝着真正通用智能的方向迈进。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号