哈希特图书集团（Hachette Book Group）和Cengage集团于周四向加州联邦法院申请介入，参与针对谷歌的集体诉讼，指控谷歌在AI训练中侵犯版权。
出版商指控谷歌从盗版网站，包括Z-Library和OceanofPDF，下载他们的书籍，然后在训练模型的过程中反复复制这些书籍。
谷歌的C4训练数据集涉嫌从至少28个与盗版相关的网站抓取内容，版权符号出现超过2亿次。

主要图书出版商哈希特图书集团和Cengage集团于周四提交动议，申请介入去年对谷歌提起的现有集体诉讼，指控这家科技巨头策划“历史性版权侵权”以构建其Gemini平台。在加州联邦法院提交的起诉书中指出，谷歌“选择从原告及其代表的群体中窃取大量内容，用于训练其AI模型”，而不是获得适当的许可，且在开发的每个阶段都进行故意侵权。该合并案件最初由个人作者于2023年作为拟议的版权集体诉讼提起，指控谷歌复制书籍以训练其生成式AI模型。出版商声称，谷歌从盗版网站下载书籍，然后在AI训练过程中反复复制，先存入计算机内存，再转化为AI系统可读取的格式，再用于每个新模型版本的训练集。

起诉书称，谷歌的C4训练数据集包含从Z-Library抓取的受版权保护的作品，Z-Library是一个盗版集合，相关当局已查封超过350个网站和域名。出版商指出，书籍是从b-ok.org复制的，该域名现已显示联邦查封通知，还包括OceanofPDF和WeLib，“这是另一个拥有大量未授权版权内容的繁忙网站”。起诉书指出，C4数据集包含至少28个被美国政府认定为盗版和假冒市场的网站的作品。

“在C4数据集中，©符号出现超过2亿次，”起诉书写道，指出谷歌涉嫌排除“政策通知”和“使用条款”警告，但包含“大量受版权保护的作品、盗版作品以及从付费墙后获取的作品”。出版商指控谷歌从订阅制图书馆如Scribd.com复制作品，规避合法许可协议。当被问及此做法时，非营利数据集提供商Common Crawl据称回应说“责备受害者的心态，声称‘如果你不想你的内容在互联网上，就不应该把它放在网上’”。起诉书还称，Gemini现在生成的内容“替代受版权保护的作品”，包括逐字复制、详细摘要以及“复制原创作品创意元素的仿制品”。 _Decrypt_已联系谷歌及出版商的法律顾问。 AI与出版商谷歌同时正应对Penske Media Corporation关于其AI概览（AI Overviews）功能的反垄断指控，谷歌声称展示AI生成的摘要属于“合法的产品改进，而非反竞争行为”。出版商寻求法定赔偿、禁令以停止进一步侵权，以及命令谷歌销毁所有未授权的作品副本，并披露用于训练Gemini的书籍清单。介入动议是在2023年一系列作者对AI公司提起版权诉讼之后提出的，联邦法官对Meta和Anthropic作出部分胜诉判决，裁定它们使用受版权保护的书籍训练模型属于合理使用，但批评这些公司建立了永久的盗版书籍库。

免责声明：本页面信息可能来自第三方，不代表 Gate 的观点或意见。页面显示的内容仅供参考，不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证，对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为，价格波动剧烈，您可能损失全部投资本金。请充分了解相关风险，并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明。

0/400

暂无评论