AI生成的内容可以被区分出来么?
AI生成的内容可以被区分出来么?
随着生成式AI技术的迅猛发展,AI生成内容在信息传播中的占比日益增加。然而,如何准确区分AI生成内容与人类原创内容,成为了一个亟待解决的技术和治理难题。本文从技术手段、产业实践和治理策略等多个维度,深入探讨了AI生成内容识别的现状与挑战。
图片
AI生成内容比例激增,内容治理面临新挑战
当前,AI生成内容在信息传播中的比例正在快速攀升。研究显示,仅从2023到2024年,包含AI生成内容的网页数量就激增了2848%。这一变化不仅改变了内容生产模式,也推动着内容治理逻辑从关注内容性质转向关注内容来源。
在AI生成内容早期阶段,大模型厂商尝试开展标识工作,以提升模型透明度和支持权利保护。然而,随着AI生成内容对信息传播秩序的潜在风险日益凸显,政府和社会公众对标识的推动力度也在加大。
技术路径:内容检测与数据跟踪
内容检测路径
内容检测是最直观的解决方案。虽然AI生成内容在人类感官层面已与人工创作内容相差无几,但在细节层面仍存在可被机器或技术专家觉察的特征。例如,在图像内容中,AI生成内容会出现像素级的不一致;在视频内容中,AI生成内容会表现出轻微的不自然。
然而,目前成熟的、高效且可靠的合成内容检测技术尚不可得。评估AI生成内容检测的技术需要考虑通用性、可解释性、效率、鲁棒性、计算成本等要素。据报道,使用不同方法在不同的训练和测试子集中获得的准确率仅为61%到70%,当合成图像经过后处理时,检测准确率将进一步降低。
数据跟踪路径
来源数据跟踪是对“内容性质识别”的间接解决方案。当前的来源数据跟踪方法主要包括显式标识和隐式标识。
显式标识:包括内容标签和可见水印等。内容标签无法在生成合成内容的全生命周期都起到区分效果;而可见水印容易被裁剪或移除,当应用在整个内容的大部分区域时,会降低数字内容的质量。
隐式标识:主要包括数字水印和元数据记录两种技术路径。数字水印需要大量的计算资源,且容易被去除和篡改;元数据记录虽然效率较高,但存在存储成本高、容易被修改等问题。
产业界自发探索
在全球范围内,人工智能企业、大型网络平台基于透明度、可信赖等原则,围绕AI生成内容的标识,已自发展开探索。例如,ChatGPT使用元数据记录进行标识,Meta AI创建或编辑的图像包含可见水印。国内企业开发的人工智能系统如元宝、豆包、文小言等都已在生成的图像添加显式标识。
互联网平台方面,Meta规定用户需要对所分享的包含经数字手段生成或修改的逼真视频或拟真音频的内容进行标识。X对于利用AI虚构或模拟真实人物的媒体内容会添加显式标识。国内平台如小红书、微博等也已上线用户自主声明功能。
基于动态风险的治理探索
AI生成内容带来了与以往完全不同的风险,推动着各方尝试明确AI生成与人类创造的边界。然而,针对AI生成内容的标识,目前尚未形成成熟的技术解决方案。总体上,出于“防患于未然”的风险预防思路,标识工作处于一种自发探索的状态。
建议采取开放推荐的方式,鼓励相关主体积极探索多种技术方式。同时,基于场景区分不同主体的治理角色,避免大而全,将治理资源聚焦在“真正的风险领域”。此外,培养公众在AI时代的“信息素养”也是关键一环。
图片