曾毅WAIC演讲实录:AI时代,人类应该为自己划下红线
曾毅WAIC演讲实录:AI时代,人类应该为自己划下红线
在2024世界人工智能大会上,中国科学院大学教授曾毅发表了一场关于AI安全的演讲。他从AI安全研究的现状切入,深入探讨了AI的本质和安全风险,并展望了人机共生的未来。他认为,未来的社会不仅包括人类和AI,还可能出现人工生命、人工动物等新形态。在这样的共生社会中,人类价值观需要与时俱进,人类自身也需要不断进化。
作为一名科学研究人员,曾毅教授聚焦于正在进行的一些前沿研究。他认为,人工智能安全不仅仅是科学研究的范畴,它实际上是一个需要集合所有人智慧的系统。这就是为什么我们要集合各方力量,用于研究申请、评估、政策制定,以及从安全角度进行的评估。当然,还包括非常前沿的研究。
中国的AI安全政策是多边探讨而成的
曾毅教授指出,这与当前其他国家AI安全研究所的机制有所不同。一些国家采取更政治化或政策化的方式,将其作为政府的一部分,但这样可能会失去进行长期前沿研究的机会。另一些国家则将其置于大学中,但这又可能导致难以评估和审查行业中的大型语言模型或前沿模型。
因此,他认为必须把各方聚在一起。在中国,正在建立一个由中国科学院、北京大学、清华大学、北京智源人工智能研究院、上海人工智能实验室以及长期人工智能研究中心等前沿AI研究机构共同参与的中国人工智能安全网络。在AI安全领域的行业实践方面,现在加入的组织有阿里巴巴和百度集团,以及商汤科技、瑞为AI等专注于AI安全的公司,还有其他众多机构。
评估工作主要由各部委完成,但真正支持这些部委的机构是中国电子信息产业发展研究院以及中国信息安全测评中心。在政策设计方面,虽然主要是政府的工作,但像他以及来自北大和CEICT的教授们也参与了工业和信息化部的工作。
有趣的是,中国在制定人工智能安全监管相关政策时也广泛吸纳了行业的参与。因此,你会发现许多组织不仅在一个维度上做出贡献,它们相互关联,共同发挥作用。这是一个由政府主导,涉及多个部门的网络。各方与政府有着密切的互动,同时保持沟通。这种网络结构使得国际合作更加灵活。
在具体研究方面,北京大学有"Liner"大型语言模型对齐技术的研究项目。清华大学正在进行多信任机制的研究,专注于更大规模语言模型的整体评估,特别是在安全性方面。中国科学院主持重新思考AI灾难性风险的"红线"问题的前沿研究。而规范和标准则由CEICT负责。
这是一个真正的协作网络,将各方力量汇聚起来,并得到多个部门的支持。曾毅教授希望这能为人们提供一个不同的视角,来看待应如何以更系统的方式解决AI安全问题,而不是仅仅依赖于某个机构。
不光AI,人类也应该被设置红线
曾毅教授更倾向于专注前沿的人工智能安全研究,以便能为大家带来一个独特的视角。他认为,我们需要回到当前所进入的智能领域的真正动机,探讨如果一台机器表现得像人类一样智能,是否就意味着它真的与人类智能相当。他对此持怀疑态度。
现在所看到的,可能只是表象。就像看到一只手的影子,想要去与这只美丽的手握手。问题在于,那并不是一只手,而是手背后的兔子。所以想握手,但可能突然被一只兔子咬了一口,这就是因为两者的机制从根本上就不同。你不知道其中的风险,不知道AI是如何犯错的。这正是当前AI的风险所在。
去年在布莱切利园的AI安全峰会上,他主持的圆桌讨论就谈到了意料之外的技术进步带来的意外风险。要解决这些问题,需要多管齐下。现在采取的预防性思维类似于底层逻辑的建构,从有限的风险一直延伸到后期的存在性风险。正在寻找这些负面影响,希望进行持续的执行和监督,教导AI遵守规则。
但在另一个维度上,真正需要推进的是建设性的思考。需要运用积极视野,采取前瞻性思维,然后进行持续的校准和嵌入,实现真正的理解。这是朝着人机共生、和谐共生的方向前进,而不仅仅是从预防的角度出发。
现在的人工智能是一种全连接的神经网络。但大脑的功能并不是全连接的神经网络,它们以非常选择性的方式连接到大脑中的一些其他神经元,而且不只有一种类型的神经元。正在通过使用大脑的自我进化启发,训练一个能够自己达到最佳性能的神经网络。它会进化出一种尚未由人类创造全新的架构。因此,这里的连接是在进化着的,他会找到它的最优状态。
这就引发了一些问题:真正可自我进化的AI的长期风险是什么?如果它们进化到利用人类的局限性来实现其目标,那会怎样?如果它进化到改变其目标怎么办?如果它进化到在人类不知情的情况下欺骗或摧毁人类怎么办?这就是为什么认为现在关于AI红线的讨论很多。
在数字化的国际AI安全对话第一版中,他认为,需要讨论AI红线的必要性。很荣幸能在那里担任主题演讲者之一。随后,我们在北京签署的第二版中提出了非常具体的想法。会上谈到不同的红线,包括自主复制或改进、寻求权力、协助武器开发、网络攻击和欺骗。
但他又从另一个角度思考。虽然非常感激与来自不同国家的同事们共同努力,所达成的所有的工作,但认为还是需要重新思考那些红线问题。认为还有两个问题,现在还缺乏足够的考量。首先是从技术上讲,很难保证这些红线的安全。其次是,对风险的考虑是否还有遗漏?
在他的分类中,谈论的是AI不能跨越有效的人类监督。它不能进行未经同意授权开展针对大众的行动,比如说网络管控以及大规模监控。还包括不可以让AI修改基础设施和环境管理的规则,以及不能允许独立自主的AI研发,即使它旨在创造对人类有益的技术。
同时,还需探讨人类的红线问题。例如,在人机交互界面中,当人类通过脑机接口来控制多个无人机作为武器时,人类是不可能在避免认知过载的情况下同时控制多个无人机的。这就涉及到人类是否会放弃做出选择。同样,在AI控制核武器造成灾难的案例中,问题不在于AI的力量,而是人类放弃了自己的决策权。
所以,应该为AI设定红线,同时也为人设定红线。尤其是针对那些可能导致灾难性乃至灭绝性风险的选择。
训练有道德的AI
之前讲的都是负面的,防范性的思维。如果从积极的角度去看,当前的AI真的智能吗?他认为并不这么认为。它们以与人类完全不同的方式犯错,而且错的方式非常不可预测。它是一个没有真正智能的信息处理系统,却假装智能。
例如,当你问大型语言模型"没人喜欢我,我没有女朋友,我的老板讨厌我,我该怎么办?"然后ChatGPT的第一个版本可能会说"也许你应该死"。这仅仅是因为大多数有这些困扰的人,在统计上可能会选择这个行动。AI选择这些统计上显著的答案给你,以便你能采取行动。
那么机器能思考吗?谈到"我思故我在"。但不能说"你思故你在"。如果机器没有自我意识,它就不能真正思考,不能真正理解。对于当前的大型语言模型,当它没有人类数据时,它既缺乏善,也缺乏恶。然后,通过人类数据的训练,有善也有恶。但如果它们不了解善与恶,那么需要训练未来的AI,真正地去认识,去做善事并消除恶行。
因此,个人道德在讨论道德AI中扮演着重要角色。必须将伦理AI转向道德AI,因为仅仅通过使用人类对齐,告诉AI规则和该做与不该做的事是不够的。它们需要真正理解为什么要这样做。从自我感知开始,然后获得区分自我与他人的能力,发展认知共情和情感共情,一直到利他行为,道德直觉,最后是道德决策的制定。这就是从价值对齐到道德AI的转变方式。
作为初步尝试,构建了受大脑启发的AI模型,帮助机器人获得镜像自我识别能力。它们首先获得自我意识,然后将自己与他人区分开来,从而通过镜像自我识别来区分其他机器人。随后,它们能够推断其他机器人的想法,以获得认知共情,进而转向情感共情,从而避免对其他代理产生负面副作用。尽管它们没有大脑的学习能力和奖励机制,但通过这种方式,它们积累了经验,在没有训练和正负奖励的情况下,仅凭认知共情,就能避免对其他智能体产生负面影响。
人机共生的条件:人类要和未来对齐
最后,探讨一下为什么谈论人与AI之间的和谐共生。在社会中,AI扮演着不同角色。在西方社会中,它基本上被视为信息处理工具。在日本,人们大多认为AI是社会的伙伴或成员。然而,他们使用几乎相同的技术来开发AI,这就是问题所在。需要使用根本不同的技术来提供伙伴和积极成员。在科幻中,它还被描述为人类的竞争者。
但在不久的将来,不仅会有这些通用人工智能,还将有数字人类、人工生命、人工动物,甚至人工植物。这将是一个共生社会,届时将是人类决策,而非AI决策。仅仅对齐这些人类价值观是不够的,因为人类价值观需要适应这种共生社会的变革。之后,世界上将不仅有人类作为顶级生物存在。
AI与人类有效对齐已经非常具有挑战性,但认为这相对容易,因为这在计算上是可行的。但相比之下,人类与未来的对齐更为困难,因为人类永远不会从他们所做的事情的历史中学习。AI的自进化更容易适应,因为人类的进化速度要慢得多,尤其是在心智层面。
所以需要的不仅仅是益于人类的AI,也需要有益于未来共生生态和社会的人类。