图书出版商寻求进入谷歌AI版权争夺战

Decrypt

简要介绍

  • 哈希特图书集团(Hachette Book Group)和Cengage集团于周四向加州联邦法院申请介入,参与针对谷歌的集体诉讼,指控谷歌在AI训练中侵犯版权。
  • 出版商指控谷歌从盗版网站,包括Z-Library和OceanofPDF,下载他们的书籍,然后在训练模型的过程中反复复制这些书籍。
  • 谷歌的C4训练数据集涉嫌从至少28个与盗版相关的网站抓取内容,版权符号出现超过2亿次。

主要图书出版商哈希特图书集团和Cengage集团于周四提交动议,申请介入去年对谷歌提起的现有集体诉讼,指控这家科技巨头策划“历史性版权侵权”以构建其Gemini平台。 在加州联邦法院提交的起诉书中指出,谷歌“选择从原告及其代表的群体中窃取大量内容,用于训练其AI模型”,而不是获得适当的许可,且在开发的每个阶段都进行故意侵权。 该合并案件最初由个人作者于2023年作为拟议的版权集体诉讼提起,指控谷歌复制书籍以训练其生成式AI模型。 出版商声称,谷歌从盗版网站下载书籍,然后在AI训练过程中反复复制,先存入计算机内存,再转化为AI系统可读取的格式,再用于每个新模型版本的训练集。

起诉书称,谷歌的C4训练数据集包含从Z-Library抓取的受版权保护的作品,Z-Library是一个盗版集合,相关当局已查封超过350个网站和域名。 出版商指出,书籍是从b-ok.org复制的,该域名现已显示联邦查封通知,还包括OceanofPDF和WeLib,“这是另一个拥有大量未授权版权内容的繁忙网站”。  起诉书指出,C4数据集包含至少28个被美国政府认定为盗版和假冒市场的网站的作品。

“在C4数据集中,©符号出现超过2亿次,”起诉书写道,指出谷歌涉嫌排除“政策通知”和“使用条款”警告,但包含“大量受版权保护的作品、盗版作品以及从付费墙后获取的作品”。 出版商指控谷歌从订阅制图书馆如Scribd.com复制作品,规避合法许可协议。 当被问及此做法时,非营利数据集提供商Common Crawl据称回应说“责备受害者的心态,声称‘如果你不想你的内容在互联网上,就不应该把它放在网上’”。 起诉书还称,Gemini现在生成的内容“替代受版权保护的作品”,包括逐字复制、详细摘要以及“复制原创作品创意元素的仿制品”。 _Decrypt_已联系谷歌及出版商的法律顾问。 AI与出版商 谷歌同时正应对Penske Media Corporation关于其AI概览(AI Overviews)功能的反垄断指控,谷歌声称展示AI生成的摘要属于“合法的产品改进,而非反竞争行为”。 出版商寻求法定赔偿、禁令以停止进一步侵权,以及命令谷歌销毁所有未授权的作品副本,并披露用于训练Gemini的书籍清单。 介入动议是在2023年一系列作者对AI公司提起版权诉讼之后提出的,联邦法官对Meta和Anthropic作出部分胜诉判决,裁定它们使用受版权保护的书籍训练模型属于合理使用,但批评这些公司建立了永久的盗版书籍库。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论