问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

近 80% 的训练数据集可能对企业 AI 构成法律风险

创作时间:
作者:
@小白创作中心

近 80% 的训练数据集可能对企业 AI 构成法律风险

引用
1
来源
1.
https://www.unite.ai/zh-CN/%E8%BF%9180%25%E7%9A%84%E8%AE%AD%E7%BB%83%E6%95%B0%E6%8D%AE%E9%9B%86%E5%8F%AF%E8%83%BD%E5%AF%B9%E4%BC%81%E4%B8%9A%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD%E6%9E%84%E6%88%90%E6%B3%95%E5%BE%8B%E9%A3%8E%E9%99%A9/

LG AI Research最近发表的一篇论文指出,用于训练人工智能模型的所谓“开放”数据集可能给人一种虚假的安全感。研究发现,近五分之四被标记为“可用于商业用途”的人工智能数据集实际上包含隐藏的法律风险。

这些风险包括包含未公开的版权材料,以及深藏在数据集依赖项中的限制性许可条款。如果该论文的结论准确,那么依赖公共数据集的公司可能需要重新考虑其当前的AI流程,否则可能会面临法律风险。

研究人员提出了一种激进的可能引起争议解决方案:基于人工智能的合规代理能够比人类律师更快、更准确地扫描和审核数据集历史。

该文件指出:

“本文主张,不能仅通过审查表面许可条款来确定人工智能训练数据集的法律风险;对数据集重新分配进行彻底的端到端分析对于确保合规性至关重要。”

“由于此类分析的复杂性和规模超出了人类的能力,因此人工智能代理可以通过更快、更准确地进行分析来弥补这一差距。如果没有自动化,关键的法律风险在很大程度上仍未得到审查,从而危及道德的人工智能发展和法规遵守。”

“我们敦促人工智能研究界将端到端法律分析视为一项基本要求,并采用人工智能驱动的方法作为可扩展数据集合规的可行途径。”

研究人员的自动化系统检查了2,852个根据各自许可证看起来可用于商业的流行数据集,发现一旦追踪到所有组件和依赖关系,只有605个(约21%)在法律上可以安全地用于商业化

对与错

作者强调挑战在日益不确定的法律环境中,推动人工智能发展的公司面临着巨大的挑战——以前围绕数据集训练的学术“合理使用”思维模式让位于一个支离破碎的环境,在这种环境中,法律保护不明确,安全港不再有保障。

作为一份出版物指出:最近,公司对其训练数据来源的态度越来越谨慎。作者Adam Buick评论*:

“[虽然]OpenAI披露了GPT-3的主要数据来源,但介绍GPT-4的论文发现只是模型训练的数据是“公开可用数据(例如互联网数据)和从第三方提供商获得许可的数据”的混合。”

人工智能开发人员尚未详细阐述这种不透明举措背后的动机,在很多情况下他们根本没有给出任何解释。

“就OpenAI而言,其决定不公布有关GPT-4的更多细节的理由是担心‘竞争格局和大型模型的安全影响’,但报告中没有进一步解释。”

透明度可能是一个不诚实的术语,或者只是一个错误的术语;例如,Adobe的旗舰产品萤火虫生成模型,使用Adob e有权利用的库存数据进行训练,据称可以为客户提供有关他们使用该系统的合法性的保证。后来,一些证据出现Firefly数据库已变得丰富,包含来自其他平台的潜在受版权保护的数据。

正如我们本周早些时候讨论过,有越来越多的举措旨在确保数据集符合许可证,其中包括仅抓取具有灵活的知识共享许可证的YouTube视频。

问题在于,许可证本身可能是错误的,或者是错误授予的,正如新的研究表明的那样。

检查开源数据集

在环境不断变化的情况下,很难开发出像作者的Nexus这样的评估系统。因此,本文指出,NEXUS数据合规框架系统基于“目前的各种先例和法律依据”。

NEXUS利用一个名为自动合规用于自动化数据合规。AutoCompliance由三个关键模块组成:用于网页探索的导航模块、用于信息提取的问答(QA)模块以及用于法律风险评估的评分模块。

这些模块由经过精细调整的人工智能模型提供支持,包括EXAONE-3.5-32B-指令模型,在合成数据和人工标记数据上进行训练。AutoCompliance还使用数据库来缓存结果以提高效率。

AutoCompliance从用户提供的数据集URL开始,将其视为根实体,搜索其许可条款和依赖项,并递归跟踪链接的数据集以构建许可依赖关系图。映射所有连接后,它会计算合规性分数并分配风险分类。

新工作中概述的数据合规框架确定了各种†数据生命周期中涉及的实体类型,包括数据集,构成人工智能训练的核心输入;数据处理软件和人工智能模型,用于转换和利用数据;以及平台服务提供商,从而方便数据处理。

该系统通过考虑这些不同的实体及其相互依赖关系来全面评估法律风险,不再死记硬背地评估数据集的许可证,而是涵盖了涉及人工智能开发的组件的更广泛的生态系统。

培训和指标

作者提取了Hugging Face上下载次数最多的前1,000个数据集的URL,随机抽样出216个项目构成测试集。

EXAONE模型微调在作者的自定义数据集上,使用导航模块和问答模块综合数据,以及使用人工标记数据的评分模块。

真实标签由五位法律专家创建,他们接受过至少31小时的类似任务培训。这些人类专家手动识别了216个测试用例的依赖关系和许可条款,然后通过讨论汇总和完善了他们的发现。

经过训练和人工校准的AutoCompliance系统经过测试聊天GPT-4o和困惑Pro,值得注意的是,在许可条款中发现了更多依赖项:

该文件指出:

“AutoCompliance的表现明显优于所有其他代理和人类专家,在每个任务中分别实现了81.04%和95.83%的准确率。相比之下,ChatGPT-4o和Perplexity Pro在来源和许可证任务中分别表现出相对较低的准确率。”

“这些结果凸显了AutoCompliance的卓越性能,证明了其在处理这两项任务时的卓越准确性,同时也表明基于AI的模型与这些领域的人类专家之间存在巨大的性能差距。”

在效率方面,AutoCompliance方法仅需53.1秒即可运行,而对于相同任务,人工评估则需2,418秒。

此外,评估运行成本为0.29美元,而人类专家的成本为207美元。但需要注意的是,这是基于每月租用GCP a2-megagpu-16gpu节点,费率为每月14,225美元——这表明这种成本效益主要与大规模运营有关。

数据集调查

为了进行分析,研究人员选择了3,612个数据集,将Hugging Face下载次数最多的3,000个数据集与612年的2023个数据集相结合数据来源倡议。

该文件指出:

从3,612个目标实体开始,我们总共确定了17,429个唯一实体,其中13,817个实体作为目标实体的直接或间接依赖关系出现。

“对于我们的实证分析,如果实体没有任何依赖关系,我们认为实体及其许可证依赖图具有单层结构;如果实体具有一个或多个依赖关系,我们认为实体及其许可证依赖图具有多层结构。”

“在3,612个目标数据集中,2,086个(57.8%)具有多层结构,而其余1,526个(42.2%)具有单层结构且没有依赖关系。”

受版权保护的数据集只能在获得合法授权的情况下重新分发,这些授权可能来自许可证、版权法例外或合同条款。未经授权的重新分发可能导致法律后果,包括侵犯版权或违反合同。因此,明确识别违规行为至关重要。

研究发现,数据集重新分发存在9,905起不合规案例,分为两类:83.5%的案例在许可条款中被明确禁止,重新分发明显违法;16.5%的案例涉及许可条件相冲突的数据集,理论上允许重新分发,但未能满足要求的条款,从而产生下游法律风险。

作者承认,NEXUS中提出的风险标准并不具有普遍性,可能因司法管辖区和人工智能应用而异,未来的改进应侧重于适应不断变化的全球法规,同时完善人工智能驱动的法律审查。

结语

这是一篇冗长且在很大程度上不友好的论文,但却解决了当前行业采用人工智能的最大阻碍因素——表面上“开放”的数据可能会被各种实体、个人和组织所占有。

根据DMCA,违反规定可能会被处以巨额罚款每宗个案当违规金额达到数百万美元时,就像研究人员发现的案例一样,潜在的法律责任确实非常重大。

此外,那些能够证明从上游数据中受益的公司不能(照常)以无知为借口,至少在有影响力的美国市场上是如此。他们目前也没有任何实用的工具来洞察隐藏在所谓的开源数据集许可协议中的错综复杂的含义。

制定诸如NEXUS之类的系统所面临的问题在于,在美国以州为单位或在欧盟以国家为单位对其进行校准已经十分困难;而创建一个真正的全球框架(一种“数据集来源的国际刑警组织”)的前景不仅因涉及的不同政府之间动机冲突而受到阻碍,而且这些政府及其现行法律的状态也在不断变化。

*我用超链接代替了作者的引用。

†论文规定了六种类型,但最后两种类型尚未定义。

本文原文来自unite.ai

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号