从图灵测试到"通"测试:人工通用智能的新评估体系
从图灵测试到"通"测试:人工通用智能的新评估体系
随着人工智能技术的快速发展,如何科学地评估人工通用智能(AGI)成为了一个重要课题。近日,一篇发表在国际期刊上的论文提出了"通测试"(Tong Test)这一新的AGI评估方法,通过在动态实体化物理和社会互动(DEPSI)环境中评估AI的能力和价值观,为AGI研究提供了一个全新的评价体系。
1 具身动态环境中的AGI评估
传统的AI评测方法主要分为两类:一类是基于人类观察的人机区分测试,如图灵测试;另一类是任务导向的问题评测。然而,这些方法在应用于AGI时显现出局限性。因此,研究者提出了"通测试"这一系统性的AGI评测体系,它不仅关注AI的能力维度,还引入了价值维度的考量。
2 通测试(Tong Test)
通测试的核心是在动态的物理和社会环境中对AGI进行评价,具体包括以下几个方面:
动态嵌入式物理和社会互动(DEPSI):AGI需要在动态变化的环境中展现出智能行为,不仅要理解物理世界的变化,还要在社会互动中表现出智能行为。
无限任务生成:通测试采用组合图形模型(即"解析图")作为知识表示形式,能够表达给定场景的空间、时间和因果关系。基于此,它定义了一个"流畅空间",其中包含场景属性的时间变量,从而允许生成无限数量的任务。
自我驱动的任务创造:除了完成任务,AGI还需要能够在没有明确指令的情况下自我驱动地创建新任务,这反映了AI系统在不同情境下的适应能力。
价值对齐:通测试还包括对AI模型的价值观评估,确保AI的行为与人类社会的价值观相一致。
因果理解:通测试要求AI模型展示出对因果关系的理解,这是AGI智能的一个重要方面,对于解决复杂问题至关重要。
具身化:AGI必须在具身化的环境中操作,这意味着它必须有能力与环境进行互动,并且这种互动是持续的、动态的。
多层次的AGI里程碑:通测试通过一系列虚拟环境中的互动,定义了AGI发展的多个里程碑级别,允许对AGI的多维能力和价值观进行量化。
3 结语
"通测试"作为一种在动态实体环境中基于能力和价值导向的评估系统,为评价人工通用智能(AGI)的表现提供了一个新的框架。它不仅关注AI的能力维度,还引入了价值维度的考量,通过无限任务生成、自我驱动任务创建、价值对齐、因果理解及实体化等关键特征,为AGI研究提供了重要的理论指导。
论文链接:https://www.sciencedirect.com/science/article/pii/S209580992300293X