资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

OpenAI向1亿ChatGPT用户，公开10种安全措施

创作时间:

作者:

@小白创作中心

OpenAI向1亿ChatGPT用户，公开10种安全措施

引用

腾讯

https://new.qq.com/rain/a/20240724A01LHB00

OpenAI近日更新了其安全策略和保护措施，以确保全球超过1亿的ChatGPT用户和数百万开发人员能够安全、稳定地使用其产品。这些措施包括模型测试与发布前评估、对齐和安全研究、监控滥用、模型安全方法、保护儿童、公平诚信、影响评估和政策分析、安全和访问控制措施、与政府合作以及安全决策和董事会监督。

模型测试与发布前评估

在发布前，OpenAI会准备框架和自愿承诺，对模型安全性进行内部和外部的实证评估。如果新模型的风险等级达到准备框架中的“中等”风险阈值，将不会发布该模型，直到实施足够的安全干预措施，将风险等级降低回“中等”。

例如，在发布GPT-4时，超过70位外部专家帮助OpenAI通过外部红队努力评估相关的风险。这种评估不仅包括公司内部的审核，还包括外部专家的参与，以获得更全面的风险评估。

对齐和安全研究

OpenAI的模型随着时间的推移变得更加安全。这可以归因于构建更智能的模型，这些模型通常犯的事实错误更少，即使在越狱等对抗条件下也不太可能产生有害内容。未来，OpenAI的模型将被训练遵循的指令，旨在大幅提高AI模型对越狱等攻击的鲁棒性。

监控滥用

随着通过API和ChatGPT部署越来越强大的语言模型，利用了包括专用内容审核模型和使用自己的模型监控安全风险和滥用在内的广泛工具。

OpenAI已经分享了一些关键发现，包括与微软联合披露的滥用技术案例，以便其他人能更好地防范类似风险。还使用GPT-4进行内容政策开发和内容审核决策，实现政策细化的快速反馈循环，减少人类审核员暴露于滥用材料。

模型安全方法

在模型生命周期的每个阶段实施一系列安全措施，从预训练到部署。随着在开发更安全、更一致的模型行为方面取得进展，也投资于预训练数据安全、系统级模型行为引导、数据飞轮为持续安全改进和强大的监控基础设施。

保护儿童

OpenAI在ChatGPT和DALL·E中构建了强大的默认防护措施和安全措施，以减轻对儿童的潜在伤害。2023年，还与Thorn的Safer合作，检测、审查并向国家失踪和受剥削儿童中心报告儿童性虐待材料。

公平诚信

OpenAI与政府和利益相关者合作，防止滥用确保AI生成内容的透明度，并提高获取准确投票信息的途径。为此，还引入了一个工具，用于识别DALL·E 3创建的图像，加入了内容真实性倡议（C2PA）的指导委员会，并在DALL·E 3中加入了C2PA元数据，帮助人们了解在网上找到的媒体的来源。

影响评估和政策分析

OpenAI的影响评估工作在研究、行业规范和政策方面具有广泛影响力，包括早期关于测量AI系统与化学、生物、放射性和核（CBRN）风险相关的工作，以及研究估计不同职业和行业可能受语言模型影响的程度。还发表开创性的工作，探讨社会如何最好地管理相关风险。

安全和访问控制措施

优先保护OpenAI的客户、知识产权和数据。通过API将AI模型部署到世界各地，再通过API控制访问实现政策执行。OpenAI的网络安全工作包括限制对训练环境和高价值算法秘密的访问，基于需要知道的原则，进行内部和外部渗透测试，漏洞赏金计划等。

OpenAI认为，保护先进的AI系统将从基础设施安全的演变中受益，并正在探索像GPU的保密计算和AI在网络防御中的应用等新颖控制措施。为了加强网络防御，通过网络安全资助计划资助第三方安全研究人员。

与政府合作

OpenAI与世界各地的政府合作，为有效和适应性强的AI安全政策的发展提供信息。这包括展示工作和分享OpenAI的学习成果，合作试点政府和其他第三方保证，以及为新的标准和法律的公共辩论提供信息。

安全决策和董事会监督

作为OpenAI准备框架的一部分，建立一个安全决策的操作结构。OpenAI的跨职能安全咨询小组在部署前审查模型能力报告并提出建议。公司领导层会做出最终决定，董事会对这些决定行使监督权。

本文原文来自腾讯新闻

热门推荐

国家癌症中心推进肾癌质控体系建设，首批213家医院试点

依达拉奉右莰醇：脑梗治疗的新突破

新手也能种好雪柳：15个实用养殖要点详解

海上仙山太姥山：917米最高峰俯瞰云海，神秘仙人洞探秘

高血压患者必读：从按时服药到血压监测的全程管理

马来西亚：避灾圣地，宜居天堂

每天两罐是上限，红牛提神效果与风险全解析

零基础穿搭指南：全面掌握四季时尚搭配技巧

温岭坞根人大“检海”再深化，“护蓝”进行时

解码零售业数字化营销：四大维度构建增长引擎

铃鹿御前：从女盗贼到传奇女神

热水器点不着火怎么办？4步教你轻松排查故障

阿燕三区比分析法走红，专家提醒：彩票预测需理性对待

身份证到期未换？当心这些麻烦找上门！

走进《诗梦声声》，感悟时代的旋律

硬盘录像机维护技巧大揭秘

带着孩子去旅行！云南这些研学好去处不容错过

不只是帅气！男士发型也能玩出花样

断肠草：从致命毒草到潜在良药

古风五言诗的炼字奥秘：如何在二十字中创造无限意境

灵芝家庭种植指南：选种、环境控制到病虫害防治

UCLA Health最新发布：这样吃远离脂肪肝

《死或生》：霞、兰奇、米兰达谁更强？

老上海葱油拌面酱汁的最佳食材揭秘

亚龙湾热带天堂森林公园：错峰出游正当时！

磨刀石目数选购指南：低中高目数的使用场景与推荐

XX省构建“三位一体”智能培训体系，创新教师发展模式

家装贴砖人工费最新攻略

家用磨刀石选购指南：150目到3000目最佳搭配方案

第四五指间液门穴：按摩3分钟告别压力疲劳