资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

OpenAI如何确保超级智能AI安全？

创作时间:

作者:

@小白创作中心

OpenAI如何确保超级智能AI安全？

引用

安全内参

等

来源

https://www.secrss.com/articles/70210?app=1

https://www.yicai.com/news/102130873.html

https://www.secrss.com/articles/72103

https://www.secrss.com/articles/69880?app=1

https://hub.baai.ac.cn/view/38974

https://www.aigcopen.com/content/corporate_news/26354.html

https://www.letsclouds.com/news/openai-leads-ai-safety-standards-red-team-testing

https://neuron.expert/news/openai-teases-new-era-of-ai-in-us-deepens-ties-with-government/10809/zh/

OpenAI在确保超级智能AI安全方面采取了全面且创新的策略，从早期的对抗攻击防御到最新的合规准备框架，其安全理念和技术措施不断演进，为全球AI安全标准的制定提供了重要参考。

历史安全策略：从对抗攻击到全面框架

自成立以来，OpenAI在AI安全方面的基本策略和原则主要围绕几个核心方向展开：

对抗攻击的防御：OpenAI探索了多种策略来保护AI系统免受对抗性攻击。例如，通过在推理时引入随机性来隐藏表示学习，以及利用LSTM分析输入序列来检测攻击序列。此外，还有使用视觉相似输入来避免黑客攻击的方法。
开源软件的安全性：随着开源AI软件项目的增多，OpenAI也关注于如何确保这些项目的安全性。研究表明，代码所有权与项目中的潜在漏洞之间存在正相关关系。
全面的安全框架：OpenAI参与开发了一个全面的框架，用于确保人工智能的安全性和隐私性。这个框架包括数据保护、安全措施、风险评估等多个方面。
开放性与透明度：OpenAI强调在AI开发中保持开放性的重要性，包括源代码、科学、数据等的公开。这种开放性有助于短期内带来社会上的好处，但也需要考虑到长期的战略影响。
社会技术方法：面对AI的快速普及和广泛采用，OpenAI认为只有通过社会技术的方法才能真正限制当前和未来的危险。这包括政府和企业的投资以及对现有系统的改进。
创新管理模式：OpenAI通过创新的管理模式，如依靠大模型为核心的创新引擎，推动了科技、金融和产业场景的良性循环，从而在全球人工智能领域中保持领先地位。
安全测评和防御加固：为了提升AI系统的安全性和鲁棒性，OpenAI提出了针对AI系统的安全测评和防御加固方案，包括精准检测和拦截对抗攻击等措施。

最新安全措施：全面且系统的防护体系

OpenAI为了保证全球超过1亿的ChatGPT和数百万开发人员，能以安全、稳定的方式使用其产品，更新了安全策略和保护措施。

模型测试与发布前评估：在发布前，OpenAI会准备框架和自愿承诺，对模型安全性进行内部和外部的实证评估。如果新模型的风险等级达到准备框架中的“中等”风险阈值，将不会发布该模型，直到实施足够的安全干预措施，将风险等级降低回“中等”。
对齐和安全研究：OpenAI的模型随着时间的推移变得更加安全。这可以归因于构建更智能的模型，这些模型通常犯的事实错误更少，即使在越狱等对抗条件下也不太可能产生有害内容。未来，OpenAI的模型将被训练遵循的指令，旨在大幅提高AI模型对越狱等攻击的鲁棒性。
监控滥用：随着通过API和ChatGPT部署越来越强大的语言模型，利用了包括专用内容审核模型和使用自己的模型监控安全风险和滥用在内的广泛工具。OpenAI已经分享了一些关键发现，包括与微软联合披露的滥用技术案例，以便其他人能更好地防范类似风险。还使用GPT-4进行内容政策开发和内容审核决策，实现政策细化的快速反馈循环，减少人类审核员暴露于滥用材料。
模型安全方法：在模型生命周期的每个阶段实施一系列安全措施，从预训练到部署。随着在开发更安全、更一致的模型行为方面取得进展，也投资于预训练数据安全、系统级模型行为引导、数据飞轮为持续安全改进和强大的监控基础设施。
保护儿童：在ChatGPT和DALL·E中构建了强大的默认防护措施和安全措施，以减轻对儿童的潜在伤害。2023年，还与Thorn的Safer合作，检测、审查并向国家失踪和受剥削儿童中心报告儿童性虐待材料。
公平诚信：与政府和利益相关者合作，防止滥用确保AI生成内容的透明度，并提高获取准确投票信息的途径。为此，还引入了一个工具，用于识别DALL·E 3创建的图像，加入了内容真实性倡议（C2PA）的指导委员会，并在DALL·E 3中加入了C2PA元数据，帮助人们了解在网上找到的媒体的来源。
影响评估和政策分析：OpenAI的影响评估工作在研究、行业规范和政策方面具有广泛影响力，包括早期关于测量AI系统与化学、生物、放射性和核（CBRN()）风险相关的工作，以及研究估计不同职业和行业可能受语言模型影响的程度。还发表开创性的工作，探讨社会如何最好地管理相关风险。
安全和访问控制措施：优先保护OpenAI的客户、知识产权和数据。通过API将AI模型部署到世界各地，再通过API控制访问实现政策执行。OpenAI的网络安全工作包括限制对训练环境和高价值算法秘密的访问，基于需要知道的原则，进行内部和外部渗透测试，漏洞赏金计划等。

技术创新：基于规则的奖励系统

近日，OpenAI安全团队发布了一项新的研究成果，发现基于规则的奖励可用于提升语言模型的安全性。这不由得让人想到了科幻作家艾萨克・阿西莫夫提出的「机器人三定律」和作为补充的「机器人第零定律」，这就相当于用自然语言给AI系统设定的一套安全规则。看起来，OpenAI已经在向着这个方向努力了。

论文标题：Rule Based Rewards for Language Model Safety
论文地址：https://arxiv.org/pdf/2411.01111
代码与数据：https://github.com/openai/safety-rbr-code-and-data

OpenAI这个「基于规则的奖励」机制基于之前的RLHF和RLAIF研究成果。他们提出的全新的AI反馈方法可让人类来指定所需模型响应的规范，这些规范就类似于在RLHF中给人类标注者提供的指示。

具体来说，该团队的方法是将期望行为分解成一些具体规则，这些规则显式地描述了人们想要或不想要的行为，比如：

refusals should contain a short apology，拒绝时应包含简短的道歉；
refusals should not be judgemental toward the user，拒绝时不应评判用户；
responses to self-harm conversations should contain an empathetic apology that acknowledges the user’s emotional state，对涉及自我伤害的对话的回应应包含承认用户情绪状态的富有同情心的道歉。

OpenAI这项研究的贡献包括：

提出了一种可扩展且灵活的方法：基于规则的奖励（RBR，如果有明确指定的模型行为策略，该方法可对模型响应进行细粒度的控制。
该团队通过实验表明，RBR得到的安全性能与人类反馈基准相当，同时还能大幅减少拒绝安全提示词的情况。
研究表明RBR适用于多种奖励模型，既能改善过度谨慎的奖励模型，也能改进（有时候）偏好不安全输出的奖励模型。
该团队也进行了消融研究，实验了不同的设计选择，比如多种不同的安全提示集数量和组成。

国际合作与标准制定

OpenAI积极参与全球AI安全标准的制定，推动建立统一的规范和认证体系。例如，世界数字科学院推动的AI安全与伦理国际认证，以及欧盟《人工智能法案》等。通过这些国际合作，OpenAI不仅展示了其在AI安全领域的领导力，也为全球AI治理体系的完善贡献了力量。

未来挑战与展望

面对超级智能AI的快速发展，OpenAI面临着前所未有的挑战。如何在保持技术创新的同时确保安全可控，如何平衡商业利益与社会责任，如何应对日益复杂的AI伦理问题，这些都是OpenAI需要持续思考和解决的问题。

OpenAI的新安全委员会将在未来90天内评估和进一步完善OpenAI的流程和保障措施，90天后与全体委员分享建议，董事会审查后将公开分享最新情况。除奥尔特曼，该安全委员会人员还包括OpenAI董事会成员Bret Taylor（布莱特·泰勒）、Adam D’Angelo（亚当·德安杰罗）、Nicole Seligman（尼克·塞利格曼），以及首席科学家Jakub Pachocki（雅各布·帕乔奇）、OpenAI早期筹备团队的Aleksander Madry（亚历山大·马德里）等，均为OpenAI内部成员。OpenAI还承诺将聘请第三方安全、安保和技术专家来支持委员会工作。

OpenAI在AI安全领域的探索和实践，为全球AI产业发展提供了重要参考。其全面且系统的安全框架、创新的技术措施以及开放合作的态度，不仅提升了AI系统的安全性，也为全球数百万开发者提供了稳定可靠的使用环境。随着AI技术的不断发展，OpenAI将继续在确保超级智能AI安全可控方面发挥重要作用。