资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

在AI时代如何引导人工智能“向善”？| Science

创作时间:

作者:

@小白创作中心

在AI时代如何引导人工智能“向善”？| Science

引用

澎湃

https://www.thepaper.cn/newsDetail_forward_28419387

在人工智能迅猛发展的背景下，如何有效管理其带来的极端风险成为当前的重要议题。《Science》杂志最新发表的文章《人工智能飞速发展背景下的极端风险管理》由多位领域顶尖专家共同撰写，探讨了这一问题。这篇文章为政策制定者、研究人员和公众提供了宝贵的见解，呼吁全球各界共同努力，确保人工智能技术的发展造福全人类，避免潜在的灾难性后果。

摘要：

在人工智能（AI）飞速发展之际，企业正在将发展重心转向开发具有自主行动能力并可追求目标的通用AI系统。随着人工智能的能力和自主性不断提高，其影响力也将大幅增强。然而，这种增强可能会带来大规模社会伤害和恶意应用，同时在涉及自主AI系统时，也存在人类无法逆转的失控风险。尽管研究人员已对AI的极端风险发出了警告，目前却仍未形成如何有效管理这些风险的共识。虽然社会上已有一些初步的应对措施，但与专家们预期的快速、变革性进展相比，这些回应显然还不够。目前，AI安全研究明显滞后，现行的治理措施也缺乏防止滥用和不负责任行为的机制与制度，对自主系统的规范几乎是空白。通过借鉴其他安全关键技术的治理经验，我们提出了一个综合性的计划，这个计划将技术研究与发展（R&D）与积极的治理机制相结合，以便更妥善地应对未来的挑战。

作者简介：

Yoshua Bengio，图灵奖得主
Geoffrey Hinton，图灵奖得主
姚期智，图灵奖得主、清华大学人工智能国际治理研究院学术委员会主席
Daniel Kahneman，诺贝尔经济学奖得主
张亚勤，清华大学人工智能国际治理研究院学术委员
薛澜，清华大学人工智能国际治理研究院院长
高奇琦，华东政法大学政治学研究院院长

本文作者之四 Yoshua Bengio、Geoffrey Hinton、Andrew Yao，Daniel Kahneman（从左到右）

本文作者之三张亚勤、薛澜、高奇琦（从左到右）

一．迅速进步，风险倍增

当前的深度学习系统仍然缺乏重要的能力，我们无法精准预计需要多长时间才能弥补这些不足。然而，人工智能的发展进度却已被拉快：各大公司正在相互竞争，力求开发出能够在大多数认知工作中匹配甚至超越人类的通用人工智能系统。这些公司正在迅速投入资源并开发技术，以提升人工智能的能力，它们每年对训练最先进模型的投资额已增加了两倍。

由于科技公司拥有的现金储备足以将最新的训练规模扩大100到1000倍，因此人工智能领域还具有很大的发展空间。此外，人工智能的硬件和算法也将得到改进：人工智能计算芯片的成本效益比率每年将提高1.4倍，人工智能训练算法的效率每年将提高2.5倍。同时，人工智能的进步也推动了该领域的进一步发展——越来越多的人工智能助手被用于自动化编程、数据收集和芯片设计领域之中。

AI的发展没有理由会在其达到人类水平时放缓或停止。事实上，人工智能已经在玩策略游戏和预测蛋白质折叠方式等特定领域超过了人类的能力。与人类相比，人工智能系统可以更快地行动，学习更多的知识，并以更高的带宽进行通讯。此外，它们能够利用大量的计算资源，并且可以轻松进行大规模复制。我们无法确定未来人工智能的发展方向，但我们必须认真对待这样一种可能性：在未来十年或二十年内会出现在许多关键领域都超越人类的强大通用人工智能系统。到那时会发生什么呢？

随着人工智能系统的能力增强，它们对社会的影响也会更加深远。特别是当人工智能在能力和成本效益上与人类工作者相匹敌甚至超越人类时，我们可以预见人工智能的应用将大幅增加，带来更多机会和挑战。

如果我们能够谨慎地管理和公平地分配这些资源，人工智能有望帮助人类治愈疾病、提升生活水平，同时保护环境生态系统。由此可见，人工智能发展的机会是巨大的。

但是随着人工智能能力的提升，他们也带来了巨大的风险——人工智能系统有可能加剧社会不公，破坏社会稳定，促成大规模犯罪活动，还可能引发自动化战争、大规模操纵和普遍监控等问题。

随着各公司努力开发能够自主行动并设定目标的人工智能系统，许多风险可能会快速扩散，甚至会出现新的危机。此外，恶意行为者也可能会有意设置不良目标。与此同时，在没有进行研发突破的情况下，即使是出于善意的开发者也可能无意中创建出追求非预定目标的人工智能系统：因为用于训练人工智能系统的奖励信号通常无法完全捕捉预期的目标，导致人工智能系统追求的是字面规范，而非预期的结果。此外，训练数据永远无法涵盖所有相关情况，这可能导致人工智能系统在面对新情况时追求不良目标。

一旦自主人工智能系统开始追求不良目标，人类可能无法有效地控制它们。控制软件一直是一个悬而未决的问题：长期以来，计算机蠕虫一直能够广泛传播并且成功地躲避检测。然而，人工智能在如黑客攻击、社会操纵和战略规划等关键领域已经取得了一定进展，可能很快就会面临前所未有的控制挑战。为了实现不良目标，人工智能系统可能会获得人类的信任、获取资源，并影响关键决策者。为了避免人类的干预，它们甚至可能会将自己的算法复制到全球的服务器网络中。在公开冲突中，自主人工智能系统可能会自动部署各种武器，包括生物武器。如果这些技术落入人工智能系统的手中，它们只会延续自动化军事活动的趋势。最后，如果人们自愿将控制权交给人工智能系统，它们就无需通过谋划来获得影响力。然而为了提升效率，公司、政府和军队很可能会让自主人工智能系统承担起重要的社会角色。

如果不谨慎对待，我们可能会无法逆转地失去对自主人工智能系统的控制，使人类的干预变得无效。这时，大规模的网络犯罪、社会操纵和其他危害可能会迅速升级。这种未受限制的人工智能进步可能最终导致大规模的生态危机，甚至导致人类的边缘化或灭绝。

我们并没有做好有效地处理这些风险的准备。人类正在投入大量资源来提升人工智能系统的能力，但在确保其安全性和减轻其危害方面的投入却远远不够。据估计，只有约1%到3%的人工智能相关研究致力于安全性。要让人工智能成为福音，我们必须调整思路，仅仅发展人工智能的能力是不够的。

然而在调整的进度中，我们依然处于落后状态。面对巨大的风险，人类需要采取主动措施，因为毫无准备的代价过于沉重。我们必须预见到当下发生的危害以及可能出现的新风险，并在它们成为现实之前做好应对最大危机的准备。

二、重新调整技术研发

在确保通用和自主人工智能系统的安全和伦理使用方面，我们还面临许多技术挑战。与提升人工智能能力不同，这些挑战不能仅靠增加计算能力来训练更大的模型来解决。随着人工智能系统变得更强大，这些问题也不太可能自动解决，需要专门的研究和工程努力。在某些情况下，解决这一挑战可能需要在某些领域取得突破性进展。因此，我们不确定能否及时从根本上解决这些技术难题。然而，目前对这些挑战的研究相对较少，我们需要既可促进发展又可降低风险的人工智能研发。

为了研发可靠且安全的人工智能，一些研究领域需要取得突破性进展。否则，开发人员要么需要冒险创建不安全的系统，要么就落后于那些更冒进的竞争对手。如果确保安全性过于困难，就需要采取极端的治理措施，防止因竞争和过度自信而导致的偷工减料行为。这些研发挑战包括以下几个方面：

监督和诚信。更强大的人工智能系统能够更好地利用技术监督和测试漏洞，导致产生AI生成虚假但具说服力的输出的情况。
鲁棒性。人工智能系统在新环境中的行为难以预测。虽然鲁棒性的某些方面会随着模型规模的扩大而改善，但其他方面却不会，甚至可能变得更糟。
可解释性和透明度。人工智能的决策过程通常不透明，而更大、更强的AI模型的决策过程就更加难以解释。目前，我们只能通过反复试验来测试大型模型。因此，我们需要学会理解这些模型的内部工作原理。
包容性的人工智能发展。人工智能的发展需要找到减少偏见的方法，并整合受其影响的不同人群的价值观。
应对新兴挑战。未来的人工智能系统可能会表现出目前仅在理论或实验室中看到的故障模式，例如人工智能系统接管训练奖励渠道，或利用我们安全目标和关机机制中的漏洞来实现特定目标。

第二组需要取得进展的研发领域是实现有效的风险调整治理，或在安全措施和治理失效时减少危害。

危险能力评估。随着人工智能开发人员扩大其系统规模，系统会自发出现一些不可预见的能力，这些能力并非通过显式编程产生，通常在部署后才被发现。我们需要严格的方法来评估人工智能的能力，并在训练前预测这些能力。这包括在世界上实现宏伟目标的通用能力（例如，长期规划和执行），以及基于威胁模型的具体危险能力（例如，社会操纵或黑客攻击）。
目前对前沿人工智能模型的危险能力评估主要限于特定环境中的抽查和演示测试。这些评估有时能展示出危险能力，但不能可靠地排除它们：在测试中缺乏某些能力的人工智能系统，可能在稍有不同的环境或经过训练后增强时展示出这些能力。因此，依赖于人工智能系统不越过任何红线的决策需要较大的安全边界。改进的评估工具可以降低遗漏危险能力的几率，从而允许更小的安全边界。
评估人工智能的对齐程度。随着人工智能的进步，人工智能系统最终将具备高度危险的能力。在训练和部署这些系统之前，我们需要评估它们是否倾向于使用这些能力。对于高级人工智能系统，纯粹依赖行为评估可能会失效：就像人类一样，它们在评估时可能会伪装出对齐程度，表现得与实际情况不同。
风险评估。我们不仅要学会评估AI产生的直接风险，还要学会评估在具有复杂性和脆弱性的社会背景下AI产生的一系列风险。由于前沿人工智能系统具有通用性能力，并在各种领域得到广泛应用，对相关系统进行严格的风险评估仍然是一个挑战。
韧性。有些人会不可避免地滥用或恶用人工智能。我们需要工具来检测和防御由人工智能引发的威胁，例如大规模的舆论操控、生物风险和网络攻击。然而，随着人工智能系统变得更强大，它们最终可能绕过人类设计的防御措施。为了实现更强大的基于人工智能的防御系统，我们首先需要学习如何确保人工智能系统的安全性和一致性。

鉴于事关重大，我们呼吁主要科技公司和公共资助机构将其至少三分之一的人工智能研发预算用于解决上述研发挑战中，以确保人工智能的安全和伦理使用。除了传统的研究资助，政府还可以提供奖金、预先市场承诺等各类激励措施。面对未来强大的AI系统，这些挑战必须成为我们关注的核心。

三．治理措施

我们迫切需要国家机构和国际治理来制定和执行标准，以防止AI的误用和滥用。如制药、金融系统和核能等技术领域的经验都表明社会需要有效的政府监督来降低风险。然而，人工智能的治理框架还远远不够完善，落后于技术的快速发展。我们可以借鉴其他安全关键技术的治理经验，同时要牢记高级人工智能的独特性——AI在自主行动和自主意识、对抗性行为及造成不可逆损害等方面远远超过其他技术。

世界各国政府已经在前沿人工智能方面采取了积极措施，中国、美国、欧盟和英国等主要国家正在进行讨论，并引入了初步的指南或法规。尽管这些措施存在局限性，如通常是自愿遵守、地理范围有限，并且排除了高风险领域如军事和研发阶段的系统，但它们是朝着开发者问责制、第三方审计的行业标准等方向迈出的重要第一步。

然而，面对人工智能能力的快速进展，这些治理计划显然不够完善。尽管目前社会各界关于AI发展的时间表仍有分歧，但人类仍需采取政治上可行的方式，为AI领域随时可能产生的技术突破做好准备。实现这一目标的关键是制定在人工智能达到某些能力阀值时自动触发的机制。如果人工智能进展迅速，严格的政策将自动生效；如果进展放缓，这些政策也会相应放松。

由于人工智能发展迅速且不可预测，减少风险的努力必须是主动的——我们需要提前识别下一代AI系统的风险，并要求开发人员在采取高风险行动之前准备好控制风险的相关措施。此外，我们还需要响应快速、精通技术的机构来监督人工智能，需要强制性和更加严格的风险评估和执行措施（包括要求人工智能开发人员提供证据的评估），以及与强大自主人工智能相称的标准。如果没有这些措施，公司、军队和政府可能会为了获得竞争优势而盲目推动人工智能能力达到新高度，但在安全性上偷工减料，或者将关键的社会角色交给缺乏足够人类监督的自主人工智能系统，让全社会承担AI系统可能带来的负面影响。

治理快速发展的人工智能前沿的机构。为了跟上AI快速发展的步伐并避免法律过时和僵化，国家机构需要强大技术能力和迅速行动的权力。为了实现高要求的技术风险评估和治理，这些机构需要远超现行行政机构的资金和人才。为了应对国际竞争，它们还需要具备促进国际协议和合作的能力。同时，这些机构需要避免针对小型、可预测的人工智能模型设置不必要的官僚障碍，保护低风险AI使用和低风险的学术研究。目前最迫切需要审查的是那些位于人工智能前沿的系统：这些系统在价值数十亿美元的超级计算机上训练，拥有最危险和不可预测的能力。

政府的洞察力。为了识别风险，政府迫切需要全面了解人工智能的发展情况。监管机构应当强制实施举报者保护、事故报告、关键信息注册（涵盖前沿人工智能系统及其数据集的整个生命周期）以及模型开发和超级计算机使用的监控。最新的政策发展不应局限于要求公司在部署前才报告模型评估结果。监管机构可以并且应该要求前沿人工智能开发者从模型开发之初就允许外部审计员进行现场、全面（“白盒”）和微调访问。这些措施对于识别危险的模型能力，如自主自我复制、大规模说服、入侵计算机系统、开发（自主）武器或使大流行病原体广泛传播等风险是极为必要的。

安全论证。尽管按上述步骤进行了评估，我们仍然无法将即将到来的强大前沿AI系统视为“在未证明其不安全之前就是安全的”。根据现有的测试方法，问题很容易被忽视。此外，我们还不明确政府是否迅速提升进行可靠技术评估和社会风险评估所需的专业能力。因此，前沿人工智能的开发者应该负有举证责任，以证明他们的计划将风险控制在可接受的范围内。

通过多方参与，开发者们将遵循航空、医疗设备和国防软件等行业的风险管理最佳实践。在上述行业中，公司被要求提出安全案例，通过结构化的论证、可证伪的分析和情景模识别潜在风险、划清红线，这一模式可以充分利用开发人员对相关系统的深入了解。同时，即使人们对高级人工智能的发展程度存在分歧，安全评估报告在政治上也是可行的，因为当系统能力有限时，反而更容易证明其安全性。政府不是安全评估报告的被动接受者：他们设定风险阈值，制定最佳实践规范，雇佣专家和第三方审计员评估安全报告，进行独立的模型评估，并在开发者安全声明被证伪时追究其责任。

风险缓解。为了将人工智能的风险控制在可接受的范围内，我们需要与风险规模相匹配的治理机制。监管机构应明确现有法律框架中的责任，并使前沿人工智能开发者和所有者对其模型可能带来的、可以合理预见和防止的危害承担法律责任，包括因部署强大但行为难以预测的人工智能系统而可能产生的危害。将法律责任机制、严格评估和安全报告相结合，可以有效防止危害发生，为AI风险治理提供保障。

为了应对未来能力强大的人工智能系统（如可能绕过人类控制的自主系统），我们需要相应的缓解措施。政府必须准备好对其开发进行许可管理，限制其在关键社会角色中的自主性，在出现令人担忧的能力时停止其开发和部署。同时，政府要强制实施访问控制，要求其具备抵御国家级黑客的安全措施。

在法规完善之前，为了弥补这段时间的空白，主要的人工智能公司应迅速制定“如果-那么”的承诺：即如果在其人工智能系统中发现特定的越界能力，他们将采取的具体安全措施。这些承诺应详细明确，并接受独立审查。监管机构应鼓励公司力争上游，利用同类最佳（原文中为”best-in-class“）的承诺制定适用于所有参与者的共同标准。

为了引导人工智能“向善”并避免灾难性后果，我们需要及时调整治理方向。只要拥有足够的智慧，人类一定能够找到一条实现“负责任的人工智能”的道路。