Meta涉嫌版权侵权：使用LibGen数据集训练AI并删除版权信息

创作时间:

作者:

@小白创作中心

Meta涉嫌版权侵权：使用LibGen数据集训练AI并删除版权信息

引用

来源

https://www.letsclouds.com/news/meta-copyright-infringement-libgen-ai-training

Meta公司正面临一起涉及版权侵权的诉讼，原告律师称，Meta首席执行官马克·扎克伯格批准公司使用盗版电子书和文章的数据集来训练其Llama AI模型。这一案件引发了关于科技公司如何使用版权作品训练AI模型的广泛讨论，特别是在合理使用与版权保护之间的界限问题上。

案件背景与关键指控

在周三晚间提交给美国加利福尼亚北区地方法院的文件中，原告重申了Meta去年年底的证词，证词中透露扎克伯格批准使用名为LibGen的数据集来进行与Llama相关的训练。LibGen被描述为一个"链接聚合器"，提供大量受版权保护的学术出版物。尽管该网站因侵犯版权而多次遭到起诉和勒令关闭，但它依然持续提供来自Cengage Learning、McGraw Hill等大型出版商的作品。

图源备注：图片由AI生成，图片授权服务商Midjourney

内部证据与侵权行为

文件中提到，Meta内部有员工承认，LibGen是一个"我们知道是盗版的数据集"，并表示其使用可能会对公司与监管机构的谈判地位产生负面影响。尤其令人关注的是，Meta工程师Nikolay Bashlykov被指控编写脚本，删除LibGen电子书中的版权信息，包括"版权"和"致谢"字样。Meta还据称从科学期刊文章中删除了版权标记和源元数据，以掩盖其侵权行为。

更具争议的是，Meta被指控通过torrenting方式下载LibGen内容，并帮助传播这些被盗版权的文件。torrenting是一种在网络上分发文件的方式，其中下载者在同时上传文件的同时共享内容。原告律师表示，Meta通过参与torrenting实际上实施了另一种形式的版权侵权行为。尽管Meta工程师对此提出保留意见，认为这一行为不合法，Meta依然在生成AI负责人Ahmad Al-Dahle的支持下继续进行这一行为。

媒体报道与公司回应

这些指控显然与《纽约时报》去年4月的报道相符，后者曾暗示Meta在收集人工智能数据时采取了偷工减料的做法。据报道，Meta曾雇佣非洲承包商汇总书籍摘要，并曾考虑收购出版商西蒙舒斯特。然而，Meta高管认为谈判版权许可需要过长时间，合理使用原则成为了他们的主要辩护理由。

案件进展与影响

目前，案件的审理尚未有定论，且仅涉及Meta早期的Llama模型。尽管法院曾在2023年驳回了与AI相关的几项版权诉讼，认为原告未能证明侵权行为，但本案中的指控仍然可能对Meta产生不利影响。主审法官文斯·查布里亚在周三的命令中指出，他驳回了Meta请求删除大部分文件的请求，表示这些文件的删除显然是为了避免负面宣传，而非保护敏感商业信息。

此次案件将继续引发关于科技公司如何使用版权作品训练AI模型的广泛讨论，特别是在合理使用与版权保护之间的界限问题上。

热门推荐

四柱论命：揭秘你的命运密码