生成式AI数据安全:现状、挑战与未来趋势
生成式AI数据安全:现状、挑战与未来趋势
2024年2月,谷歌与社交媒体平台Reddit达成一项重要协议,谷歌每年将支付约6000万美元,以获得授权使用Reddit上的内容来训练其人工智能模型。这一事件凸显了在生成式人工智能快速发展的今天,数据安全和来源合法性已成为企业无法回避的重要议题。
生成式AI的数据安全现状
生成式人工智能是靠海量的语料、数据“喂”出来的,数据是影响人工智能技术创新最核心的要素之一。例如,文本到图像生成模型Stable Diffusion使用了非营利组织LAION收集的三个大型数据集进行训练,包括58.5亿个图像-文本对。自然语言处理模型GPT-3则是由从45TB原始数据中过滤的570GB数据训练的,包括网站抓取数据集(Common Crawl)、网页文本数据集(Web Text)、图书语料库和英语维基百科(Wikipedia),共设置了1,750亿个参数。
然而,数据安全问题也随之而来。2023年,美国发生了十多起针对AI大模型训练的司法诉讼案件。例如,十六位匿名人士对OpenAI和微软提起集体诉讼,提出15项控告,包括违反《电子通信隐私法》《计算机欺诈和滥用法案》《加州侵犯隐私法案》(CIPA)、加州《不公平竞争法》和《商业职业规范》《生物识别信息隐私法案》,伊利诺伊州《消费者欺诈和欺骗性商业行为法案》、纽约《通用商业法案》,构成重大过失、侵犯隐私、侵扰个人生活、盗窃/收受被盗财产、侵占、不当得利、未发出警告等。原告指控被告通过抓取整个互联网所有数据的方式偷取个人信息,且都是在未经通知和同意的情况下秘密抓取数据来构建AI产品,然后通过销售产品访问权限来获利。
数据来源合法性的具体要求
面对日益严峻的数据安全挑战,各国纷纷出台相关法律法规,对AI训练数据的来源合法性做出明确规定。
我国《生成式人工智能服务管理暂行办法》第7条提出了具体要求:
- 使用具有合法来源的数据和基础模型
- 涉及知识产权的,不得侵害他人依法享有的知识产权
- 涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形
- 采取有效措施提高训练数据质量
- 遵守《网络安全法》《数据安全法》《个人信息保护法》等法律、行政法规的其他有关规定和有关主管部门的相关监管要求
具体到训练语料的安全要求,《基本要求》提出了以下几点:
- 语料来源管理:采集前需进行安全评估,含违法不良信息超过5%的不应采集;采集后需核验,含违法不良信息超过5%的不应使用。
- 不同来源语料搭配:应提高语料来源的多样性,对每一种语言和类型的语料均应有多个来源。
- 语料来源可追溯:使用开源语料需有开源许可协议,使用自采语料需有采集记录,使用商业语料需有具备法律效力的交易合同。
- 禁止使用特定信息:按照我国网络安全相关法律法规及政策文件要求阻断的信息,不应作为语料。
数据安全事件案例分析
近期发生的一些数据安全事件,进一步凸显了数据来源合法性和安全性的重要性。
Reddit数据收费事件:2023年4月,Reddit宣布将开始向过度使用其数据API的公司(如谷歌、OpenAI等)收取数据费,并更新了使用条款,要求未经Reddit明确同意,不得将Reddit上的内容用于模型训练,不得将使用Reddit数据训练的模型用于商业用途。这一举措反映了数据提供方对数据权益的重视,也提醒AI企业需要更加重视数据来源的合法性。
学而思侵权事件:2023年6月,笔神作文发布声明称,学而思通过“爬虫”技术非法访问、缓存笔神作文APP服务器数据多达258万次,严重侵犯了笔神作文APP的数据权益。这一事件表明,即使是对公开数据的抓取,也需要遵守相关法律法规,尊重数据提供方的权益。
AI模型恶意攻击事件:研究发现在Hugging Face平台上存在40多个被植入恶意代码的大语言模型,包括python后门、可执行二进制程序等。这说明AI模型不仅需要关注数据来源的合法性,还需要防范数据被恶意篡改的风险。
未来发展趋势与建议
展望未来,AI数据安全将面临更加复杂的挑战。Gartner预测,到2027年,总体网络攻击中约17%将涉及生成式人工智能(GenAI)。同时,云安全、物联网安全、密码学安全等领域也将面临新的威胁。
对于企业和个人而言,建议采取以下措施:
- 加强数据合规意识:严格遵守相关法律法规,确保数据来源合法
- 建立数据安全管理体系:包括数据分类分级、风险评估、安全审计等机制
- 提升技术防护能力:利用隐私计算、区块链等技术保障数据安全
- 重视供应链安全:加强对第三方数据供应商的审核和管理
- 持续关注最新动态:跟踪法律法规变化和技术发展,及时调整安全策略
数据安全是生成式AI健康发展的重要基石。只有在确保数据安全的前提下,AI技术才能真正实现其潜力,为社会带来更大的价值。