生成式AI时代,大模型数据安全如何保障?
生成式AI时代,大模型数据安全如何保障?
在生成式AI时代,数据安全成为了一个亟待解决的问题。从数据泄露风险到知识产权保护,从算法安全到跨境数据流动,专家们提出了许多创新性的解决方案。
4月26日,在2024中关村论坛上,人工智能企业与学者就AI大模型的数据安全问题进行了深入讨论。
图:中关村论坛数据安全治理与发展论坛现场
清华大学计算机科学与技术系教授、人工智能研究院基础模型研究中心副主任黄民烈指出,在生成式人工智能时代,数据安全风险不断变化,需要算法和工具的支持,而不仅仅是依靠静态方法。他认为,生成式人工智能可以通过训练生成新的内容,这些内容可能在过去的语料中从未出现过,但仍然可能有害。因此,即便训练数据处理得非常干净,仍然可能产生有害内容。要解决这些问题,需要进行算法研究,比如针对性对抗攻击、自动红队,然后再加上安全和对齐手段,能够在问题出现时就自动进行修复。
奇安信集团副总裁刘前伟表示,行业大模型厂商普遍担心语料被窃取或核心数据资产泄露的问题。在进行微调时,防篡改要求非常高,一旦标注错误,就会导致安全大模型判断错误。对于通用模型的使用,几乎所有人都会面临一个问题,就是当我们去问大模型问题时,会不会造成商业机密、个人信息的泄露。"不管是使用者还是开发者,都要解决隐私安全、商业机密、甚至是国家安全的问题。现在只能用AI对抗AI的方式才能解决内容安全的问题,用过去传统的流量过滤的方式是无法解决的,所以'用魔法打败魔法'可能是一个很大的出路。"
IBM数据与转型咨询主管合伙人张玉明引用IBM Global的一份调查报告指出,94%的企业高管都认为在部署AI解决方案前要确保模型的安全,但只有24%的企业打算在未来6个月内去引入一些网络安全组件,这说明大家的认知和实际行动之间还存在延迟。
刘前伟还指出,当前面临的另一个挑战是跨境数据流动问题。如果全球的数据都汇聚在一起,不管是行业还是通用模型,训练效果一定会有很大改善。但是,数据跨境面临很多挑战,需要在多边协议等方面做更多的事,更多去拥抱国际组织,让国际的数据能够双向流通。
香港科技大学助理教授、香港生成式人工智能研发中心资深商业拓展经理韩斯睿认为,现有的知识产权保护制度,其实在智力产品的生成物层面就已截断,在生成式人工智能训练的token级别如何确权、如何保护,并没有共识。所以在数据脱离原本形态进入token新形态时如何进行确权保护,是法律和政策方面的一个症结,如果这个症结打通了,相信会极大地促进知识共享和流通发展。
本文原文来自科学网