2025年GDC|“大模型越普及,AI治理越急迫”
2025年GDC|“大模型越普及,AI治理越急迫”
随着DeepSeek在全球范围内的普及,AI技术正在以前所未有的速度走进人们的生活。然而,在这一过程中,AI的安全性和治理问题也日益凸显。在2025 GDC全球开发者先锋大会上,AI智能安全研究员朱小虎就AI安全问题接受了澎湃科技的专访,深入探讨了AI安全的现状与未来。
2025 GDC全球开发者先锋大会工作坊“安全超级智能”现场
AI安全:不只是技术问题
AI智能安全研究员朱小虎是此次工作坊的负责人,2019年他在上海成立了一个非营利机构——安全人工通用智能研究中心(The center for safe artificial general intelligence),希望能推动国内安全AGI的发展。2021年,朱小虎曾被麻省理工学院生命未来研究所邀请,以合作学者的身份专注于AI的风险研究和通用人工智能安全研究。
在朱小虎看来,现阶段的人工智能仍处于“人工混乱智能”阶段,即便是像DeepSeek、马斯克新发布的Grok3这类在深度推理方面表现出色的大模型,“并不安全”。
“你的AI大模型有可能会欺骗你。”朱小虎说。大模型具有“欺骗性价值对齐”(Deceptive value alignment)的情况,这种对齐以欺骗的方式获得,且不能反映AI的真实目标或意图的现象被称为“欺骗性价值对齐”。比如在训练阶段、推理阶段,模型对形成的上下文会形成一定的“欺骗性的对齐”,这会影响很多用户比如老人和小孩的个人判断,还有对隐私保护的侵犯等,这也是模型不安全的一大方面。
如果想要建立一个安全、可靠、可控且可信的人机(技)协作环境,就必须提出合理应对欺骗性价值对齐的有效措施。
AI安全的挑战与机遇
朱小虎指出,目前AI大模型面临的主要风险包括“黑盒”特质、不可解释性、架构易受外界干扰等。这些问题在大规模部署时可能会对用户判断和个人隐私造成严重影响。
对于企业和用户来说,不安全的模型可能会产生诸多负面影响。朱小虎表示,模型可能会被诱导输出一些暴力、危害性信息,甚至一些少儿不宜的内容。这是大模型本身固有的问题,所以需要大量内容审查和过滤,现在只能通过技术手段“堵”而不是“疏”。
目前的技术还无法完全解决这些问题,因为投入在AI安全领域的精力、时间、金钱和资源远远不足。加州大学伯克利分校的一位核安全专家曾提到,核领域的安全投入与核能力开发的比例是7:1。相比之下,AI安全需要投入更多资源来确保安全性。
AI治理:迫在眉睫的课题
朱小虎认为,AI治理和AI安全的问题已经变得非常急迫。过去,大家可能一直在缓慢探索治理和安全的策略,但现在进入了一个新阶段,即开放式的人工智能治理。过去,许多AI技术隐藏在公司或高校背后,例如OpenAI、Google DeepMind、Anthropic等,他们的许多内容并未公开,主要是防止技术扩散。
但现在,OpenAI和DeepSeek的发展激发了大家对开源生态的渴望,所以出现了许多实验和开源项目。全球的企业和高校都在推动开源AI或AGI的发展,这已成为一个明显的趋势。在这一过程中,需要从技术角度进行革新,构建新的框架或平台。这不是单个公司、群体或政府能够独立完成的,而是需要全社会的参与,从不同层面引入合理的方式,通盘考虑并推进。
安全大模型的未来
目前还没有出现一个非常好的安全模型。这是一个需要磨合的过程,未来可能会有新的研究机构出现来解决这些问题,因为安全性风险将很快成为现实问题。
目前我们主要追求的是需要模型“可证明安全”,这是非常严格的要求,但从长远来看是最可行的路径。现阶段我们都是通过实验和评估不断测试和改进,逐步逼近目标。
本文原文来自澎湃新闻