问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

Meta涉嫌版权侵权:使用LibGen数据集训练AI并删除版权信息

创作时间:
作者:
@小白创作中心

Meta涉嫌版权侵权:使用LibGen数据集训练AI并删除版权信息

引用
1
来源
1.
https://www.letsclouds.com/news/meta-copyright-infringement-libgen-ai-training

Meta公司正面临一起涉及版权侵权的诉讼,原告律师称,Meta首席执行官马克·扎克伯格批准公司使用盗版电子书和文章的数据集来训练其Llama AI模型。这一案件引发了关于科技公司如何使用版权作品训练AI模型的广泛讨论,特别是在合理使用与版权保护之间的界限问题上。

案件背景与关键指控

在周三晚间提交给美国加利福尼亚北区地方法院的文件中,原告重申了Meta去年年底的证词,证词中透露扎克伯格批准使用名为LibGen的数据集来进行与Llama相关的训练。LibGen被描述为一个"链接聚合器",提供大量受版权保护的学术出版物。尽管该网站因侵犯版权而多次遭到起诉和勒令关闭,但它依然持续提供来自Cengage Learning、McGraw Hill等大型出版商的作品。


图源备注:图片由AI生成,图片授权服务商Midjourney

内部证据与侵权行为

文件中提到,Meta内部有员工承认,LibGen是一个"我们知道是盗版的数据集",并表示其使用可能会对公司与监管机构的谈判地位产生负面影响。尤其令人关注的是,Meta工程师Nikolay Bashlykov被指控编写脚本,删除LibGen电子书中的版权信息,包括"版权"和"致谢"字样。Meta还据称从科学期刊文章中删除了版权标记和源元数据,以掩盖其侵权行为。

更具争议的是,Meta被指控通过torrenting方式下载LibGen内容,并帮助传播这些被盗版权的文件。torrenting是一种在网络上分发文件的方式,其中下载者在同时上传文件的同时共享内容。原告律师表示,Meta通过参与torrenting实际上实施了另一种形式的版权侵权行为。尽管Meta工程师对此提出保留意见,认为这一行为不合法,Meta依然在生成AI负责人Ahmad Al-Dahle的支持下继续进行这一行为。

媒体报道与公司回应

这些指控显然与《纽约时报》去年4月的报道相符,后者曾暗示Meta在收集人工智能数据时采取了偷工减料的做法。据报道,Meta曾雇佣非洲承包商汇总书籍摘要,并曾考虑收购出版商西蒙舒斯特。然而,Meta高管认为谈判版权许可需要过长时间,合理使用原则成为了他们的主要辩护理由。

案件进展与影响

目前,案件的审理尚未有定论,且仅涉及Meta早期的Llama模型。尽管法院曾在2023年驳回了与AI相关的几项版权诉讼,认为原告未能证明侵权行为,但本案中的指控仍然可能对Meta产生不利影响。主审法官文斯·查布里亚在周三的命令中指出,他驳回了Meta请求删除大部分文件的请求,表示这些文件的删除显然是为了避免负面宣传,而非保护敏感商业信息。

此次案件将继续引发关于科技公司如何使用版权作品训练AI模型的广泛讨论,特别是在合理使用与版权保护之间的界限问题上。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号