近20年知产律师详解:AI数据训练版权界定及解决路径!
近20年知产律师详解:AI数据训练版权界定及解决路径!
2023年12月27日,美国报业巨头纽约时报向OpenAI及微软提起诉讼,指控其未经许可使用《纽约时报》的数百万篇文章训练AI大模型,侵害了纽约时报的版权,并构成不正当竞争。这也是全世界首个AI平台被大型媒体起诉侵犯版权的案例。显然,AI数据训练是否具有合法性,是当下生成式人工智能发展所必须面对的核心法律问题。
当前技术条件下,庞大的训练数据是人工智能模型生成理想结果的基本前提。因而,数据训练的质量对AI性能具有决定性影响。而训练数据的语料可能包含受版权、商标、专利等元素,无法保证知识产权清洁性;且有的内容难以溯源、追究授权;有的内容来自爬虫技术,存在不正当竞争风险;有的内容为用户输入,同样存在个人信息及隐私风险。
版权法语境下,AI生成物的侵权认定存在挑战,即使存在实质性相似,到底是用户输入的指令造成的,还是AI模型训练导致的结果?
在国内的法律体系下,如何参考数据抓取不正当竞争案件的诉讼思路,在竞争法语境下寻求保护?
从当前模型数据训练的原理出发,AI数据训练对作品的使用主要涉及的是内容获取阶段、输入阶段及输出阶段,不同阶段的行为特征对应的是不同的法律性质,评估的是不同的著作权法项下行为。
比如,在数据获取阶段,开发者构建包含大量样本的数据集的过程。在构建数据集后,需要对其进行数据处理、模型学习、模型评估和优化等等动作;在这个过程中,训练集会在不同的介质中创建副本、进行有形存储——即使是以某种形式停留在硬盘、内存或者云服务中,也属于典型的复制行为。
再比如内容输入阶段。AI数据训练需要对语料进行复制,以便在训练环境中对数据进行处理和学习,这一过程便有可能直接构成对作品复制权的侵害。
如果将大量受著作权保护的作品用来训练人工智能,这本身看似出于学习目的,实则最终服务于商业目的。
还有内容输出阶段。在这一阶段,如果生成的内容与原作品在表达上构成实质性相似,则可能侵犯复制权;如果在保留原作品表达的基础上形成了新的表达,则可能涉及改编权问题。
但大语言模型学习的是海量作品中文字之间排列组合的概率和规律,对于作品仅仅是进行统计学意义上的学习,并为了使用和展示作品中的表达性内容,是否真正属于版权法意义上的作品改编行为?
在我国《著作权法》框架下,究竟该如何解决AI数据训练的合法性问题?早期互联网的治理规则中的合理使用原则、避风港机制等规则,如何适配新的法律问题?如何借鉴域外既有探索经验,搭建科学的大模型训练责任豁免机制?
AI数据训练涉及哪些版权利用行为?可能存在哪些侵权风险?
当前,《著作权法》对AI数据训练的性质并无明确规定,对数据训练的规定主要是以行政规范及标准为主,无法成为司法实践的直接依据。
从当前模型数据训练的原理出发,AI数据训练对作品的使用主要涉及的是内容获取阶段、输入阶段及输出阶段,不同阶段的行为特征对应的是不同的法律性质,评估的是不同的著作权法项下行为。
比如,在数据获取阶段,开发者构建包含大量样本的数据集的过程。在构建数据集后,需要对其进行数据处理、模型学习、模型评估和优化等等动作;在这个过程中,训练集会在不同的介质中创建副本、进行有形存储——即使是以某种形式停留在硬盘、内存或者云服务中,也属于典型的复制行为。
再比如内容输入阶段。AI数据训练需要对语料进行复制,以便在训练环境中对数据进行处理和学习,这一过程便有可能直接构成对作品复制权的侵害。
如果将大量受著作权保护的作品用来训练人工智能,这本身看似出于学习目的,实则最终服务于商业目的。
还有内容输出阶段。在这一阶段,如果生成的内容与原作品在表达上构成实质性相似,则可能侵犯复制权;如果在保留原作品表达的基础上形成了新的表达,则可能涉及改编权问题。
但大语言模型学习的是海量作品中文字之间排列组合的概率和规律,对于作品仅仅是进行统计学意义上的学习,并为了使用和展示作品中的表达性内容,是否真正属于版权法意义上的作品改编行为?
在我国《著作权法》框架下,究竟该如何解决AI数据训练的合法性问题?早期互联网的治理规则中的合理使用原则、避风港机制等规则,如何适配新的法律问题?如何借鉴域外既有探索经验,搭建科学的大模型训练责任豁免机制?
课程收获:
版权法的新挑战:随着AI技术的发展,传统的版权法面临新的挑战和问题,律师需要了解AI生成内容(AIGC)的版权属性和归属问题,以便更好地为客户提供法律服务。
司法实践的参考:通过分析国内外关于AI作品版权认定的司法案例,律师可以了解不同司法体系是如何处理AI相关的版权问题的,有助于律师在处理类似案件时帮助企业提供更有针对性的法律意见。
课程大纲:
一、近两年中外因AI数据训练导致的版权和竞争法纠纷诉讼案例详解
1.AI训练文字数据引发的诉讼争议
2.AI训练社交媒体平台的用户数据引发的诉讼争议
3.AI训练音乐数据引发的诉讼争议
4.AI训练照片数据引发的诉讼争议
5.AI训练绘画数据引发的诉讼争议
6.为AI训练提供数据集引发的诉讼争议
二、中国企业在境内维权和业务出海中的应对策略
讲师介绍:
赵克峰
己任律师事务所合伙人
19年知识产权领域诉讼实务经验
多个案件获评最高院和各省高院典型案例
代理案件获1亿元赔偿
赵克峰律师拥有19年执业经验,专注于知识产权领域的复杂诉讼。赵律师代理的多个案件数次被最高院和各省高院评选为典型案例。2023年,在“盼盼”商标侵权案中,他代表亚萨合莱公司获得了1亿元人民币的赔偿,创下中国法院判给国外商标权人的最高赔偿纪录。在全国首例数据抓取贩卖案件中,他代表新浪微博成功胜诉并获赔2000万元,为中国的数据权益保护树立了先例。赵律师在高额争议案件的和解谈判中表现出色,屡次为客户在商业秘密、不正当竞争、软件开发和商标侵权等案件中争取到有利结果。作为知识产权社区的活跃分子,赵律师在多个国内、国际专业组织中担任职务,其贡献获得了钱伯斯、ALB、LEGALBAND等国内外知名法律评级机构的认可。