为什么智商不适合用来测试 AI
为什么智商不适合用来测试 AI
OpenAI 首席执行官 Sam Altman在最近的一次新闻发布会表示,他观察到人工智能的“智商”在过去几年中迅速提高。然而,许多专家表示,智商并不能准确衡量一个模型的能力,而且具有误导性。
奥尔特曼说:“粗略地说,我觉得——这在科学上并不准确,这只是一种氛围或精神上的答案——每年我们的智商都会移动一个标准差。”
Altman 并不是第一个使用智商(衡量一个人智力的指标)作为 AI 进步基准的人。社交媒体上的AI 影响者已经对模型进行了智商测试,并对结果进行了排名。
但许多专家表示,智商并不能准确衡量一个模型的能力,而且具有误导性。
牛津大学研究技术与监管的研究员桑德拉·沃赫特 (Sandra Wachter) 告诉 TechCrunch:“我们可能很容易使用与人类相同的标准来描述能力或进步,但这就像是将苹果与橘子进行比较一样。”
在新闻发布会上,奥尔特曼将智商等同于智力。然而,智商测试是相对的,而不是客观的,用于衡量某些类型的智力。人们一致认为,智商是逻辑和抽象推理的合理测试。但它并不能衡量实用的智力——知道如何让事情发挥作用——它充其量只是一个快照。
沃赫特指出:“智商是衡量人类能力的工具,也是一个有争议的工具,它基于科学家对人类智能的看法。但你不能用同样的标准来描述人工智能的能力。汽车比人类快,潜艇更擅长潜水。但这并不意味着汽车或潜艇超越了人类智能。你把性能的一个方面与人类智能混为一谈,而人类智能要复杂得多。”
智商测试的起源有些历史学家认为可以追溯到优生学,优生学是一门广受质疑的科学理论,认为人类可以通过选择性育种得到改善。要想在测试中取得优异成绩,测试者必须拥有强大的工作记忆和对西方文化规范的了解。当然,这很容易产生偏见,这就是为什么一位心理学家称智商测试是智力的“意识形态腐蚀的机械模型”。
华盛顿大学研究道德人工智能的博士生奥斯·凯斯 (Os Keyes) 表示,一个模型在智商测试中表现良好,更多的表明测试存在缺陷,而不是模型的性能。
“如果你有无限的记忆力和耐心,那么这些测试就很容易上当,”凯斯说。“智商测试是一种非常有限的测量认知、感知和智力的方法,而这些在数字计算机发明之前我们就已经知道了。”
考虑到模型拥有大量内存和内部知识,人工智能在智商测试中也可能拥有不公平的优势。通常,模型是在公共网络数据上进行训练的,而网络上充满了来自智商测试的示例问题。
“测试往往会重复非常相似的模式——提高智商的一个非常万无一失的方法就是练习参加智商测试,这基本上是每个[模型]都在做的事情,”伦敦国王学院专门研究人工智能的研究员迈克·库克 (Mike Cook) 说。“当我学习一些东西时,我不会像人工智能那样,把它清晰地输入我的大脑 100 万次,我也不能毫无噪音或信号损失地处理它。”
库克补充道,归根结底,智商测试(尽管存在偏见)是为人类设计的,旨在评估一般的解决问题的能力。它们不适合以与人类截然不同的方式解决问题的技术。
“乌鸦也许能够使用工具从盒子里取出食物,但这并不意味着它就能进入哈佛大学,”库克说。“当我解决数学问题时,我的大脑也在与它正确阅读纸上文字的能力作斗争,不去想回家路上要买什么,或者现在房间里是否太冷。换句话说,人类大脑在解决问题时要应对更多的事情——任何问题,智商测试或其他——而且他们所需的帮助比人工智能少得多。”
所有这些都表明需要更好的人工智能测试,AI Now Institute 首席人工智能科学家 Heidy Khlaaf 告诉 TechCrunch。
“在计算史上,我们从未将计算能力与人类的能力进行比较,因为计算的本质意味着系统始终能够完成超出人类能力的任务,”Khlaaf 说道。“将系统性能与人类能力直接进行比较的想法是近期出现的一个现象,备受争议,而围绕着不断扩大且不断变化的用于评估 AI 系统的基准的争议也随之而来。”