图灵测试对AI真的有用吗？从图灵测试到ARC-AGI的AI智能测试演进

创作时间:

作者:

@小白创作中心

图灵测试对AI真的有用吗？从图灵测试到ARC-AGI的AI智能测试演进

引用

来源

https://byolio.top/2024/11/16/TuringTest/

图灵测试作为人工智能领域最具影响力的测试方法之一，自1950年提出以来一直备受关注。然而，随着AI技术的快速发展，图灵测试的有效性也受到了越来越多的质疑。本文将探讨图灵测试的局限性，并介绍其他AI智能测试方法，以期为读者提供更全面的视角。

引子

计算机科学之父艾伦·图灵（Alan Turing）在1950年发表了人工智能领域具有里程碑意义的论文《Computing Machinery and Intelligence》，并提出了一个革命性的问题："Can machines think?"。在这篇论文中，他设计了一个测试方案——图灵测试（Turing test），用以判断机器是否能够表现出与人类相似的智能。然而，随着AI浪潮的到来，图灵测试是否依然有效，成为了人工智能领域一个备受争议的话题。

图灵测试

图灵测试的设定通常是这样的：一个人类评审员通过与一个人类和一个机器进行对话，评审员的任务是判断哪个是机器，哪个是人类。如果评审员无法正确辨别，或者误判的概率非常高，那么机器就被认为通过了图灵测试。

这种测试的好处是其巧妙地将机器是否能拥有意识、情感或思考能力的复杂难以判断的问题转化为了判断其是否能够成功模仿人类，因此很多人称其为一种模仿游戏。

图灵测试的局限

图灵测试作为一种行为上的模仿游戏，不可避免地成为了一种行为主义判断和理解事物的基准，但其会与认知主义产生不可避免的冲突。认知主义者认为外在行为表现并不能代替更为重要的内在认知，仅凭外在的行为表现并不能确定机器具备智能，并进行了著名的中文房间对其进行反驳。

除此之外，评审员数量、评审员误判的阈值、问题类型、测试时间和环境、评审员的背景与能力等都没有准确的定论，这些因素都会对图灵测试的结果产生影响，尤其是评审员是否日常使用AI对于实验结果影响巨大。

而且图灵测试讲究的是如何模拟人类，换一句话说就是如何欺骗人类，以此作为目标故意在问题上错答或回答不知道本身就是没有意义的，因为人工智能存在的意义应该是如何提高生产力，将人们从繁重的体力劳动中解放出来。

中文房间

反对图灵测试的实验中，最著名的当属约翰·希尔勒的中文房间实验。希尔勒设想自己被关在一个密闭的房间里，不懂中文，但手边有一本详细的规则手册。有人从窗口递进一张写有中文问题的纸条，他只需根据手册的规则将这些字符组合成合适的回答，再将答案递出。

中文房间实验突出了图灵测试的几个关键局限：

语法vs语义：图灵测试的结果依赖于外在行为（语法正确的输出），而中文房间实验强调语义理解的重要性——仅仅生成正确答案并不等同于真正的理解。
模仿而非智能：如果机器的目标仅是模仿人类行为，那么它可能擅长伪装，但不一定具备认知能力。例如，现代大语言模型能够模拟对话，但它们的理解能力受到质疑。
意识和认知的缺失：希尔勒指出，即便一个系统能通过图灵测试，它依然可能没有“意识”或“认知”，因为它只是在执行规则，而不是在思考。

虽然因此赞同和反对约翰·希尔勒的大有人在，但其确实也提供了对于机器内部认知测试的新的思考思路。

LLM

了解大语言模型(LLM)原理的都知道其本质上就是一个黑盒实验，基于模式统计和统计预测去回答人类的问题，其的幻觉输出本身就说明其缺乏真正的知识理解和推理能力。因此，在去年发表在Nature中的《ChatGPT broke the Turing test — the race is on for new ways to assess AI》中虽然表明chatgpt-4成功通过了图灵测试，但人们对其是否存在智能也是本身存在怀疑。