Große Buchverlage Hachette Book Group und Cengage Group haben am Donnerstag einen Antrag gestellt, um in eine bereits bestehende Sammelklage einzugreifen, die im letzten Jahr gegen Google eingereicht wurde und Google beschuldigt, „historische Urheberrechtsverletzungen“ zur Entwicklung seiner Gemini-Plattform orchestriert zu haben. Die in einem kalifornischen Bundesgericht eingereichte Klage behauptet, Google habe „sich dazu entschieden, eine enorme Menge an Inhalten der Kläger und der Klasse zu stehlen, um sein KI-Modell zu trainieren“, anstatt ordnungsgemäße Lizenzen zu erwerben, und sich bei jeder Entwicklungsphase absichtlich an Verletzungen beteiligt. Der zusammengelegte Fall wurde ursprünglich 2023 von einzelnen Autoren als vorgeschlagene Urheberrechtsklage gegen Google eingereicht, die das Kopieren von Büchern zum Training seiner generativen KI-Modelle vorwirft. Die Verlage behaupten, Google habe Bücher von Piratenseiten heruntergeladen und sie dann während des KI-Trainingsprozesses wiederholt kopiert, zuerst in den Computerspeicher, dann in Formate, die die KI-Systeme lesen konnten, und erneut in Trainingssets für jede neue Modellversion.
Der C4-Trainingsdatensatz von Google enthält urheberrechtlich geschützte Werke, die von Z-Library, einer Piratensammlung, aus der Behörden mehr als 350 Websites und Domains beschlagnahmt haben, extrahiert wurden, so die Klage. Die Verlage wiesen darauf hin, dass Bücher von b-ok.org kopiert wurden, einer Z-Library-Domain, die jetzt eine bundesstaatliche Beschlagnahmeanzeige zeigt, sowie von OceanofPDF und WeLib, „einer weiteren produktiven Seite mit Zugriff auf große Mengen an unautorisiertem urheberrechtlich geschütztem Material“. Der C4-Datensatz enthält Werke von mindestens 28 Websites, die von der US-Regierung als Märkte für Piraterie und Fälschungen identifiziert wurden, so die Klage.
„Das Urheberrechtssymbol (©) erscheint mehr als 200 Millionen Mal im C4-Datensatz“, heißt es in der Klage, die darauf hinweist, dass Google angeblich „Politikhinweise“ und „Nutzungsbedingungen“-Warnungen ausgeschlossen hat, aber „große Kategorien urheberrechtlich geschützter Werke, piratischer Werke und Werke hinter Bezahlschranken“ eingeschlossen hat. Die Verlage behaupten, Google habe Werke aus abonnementbasierten Bibliotheken wie Scribd.com kopiert und dabei legale Lizenzvereinbarungen umgangen. Als Reaktion auf diese Praxis soll der gemeinnützige Datensatzanbieter Common Crawl angeblich mit „einer Opferbeschuldigung-Mentalität“ geantwortet haben, indem er verkündete: „Sie hätten Ihre Inhalte nicht ins Internet stellen sollen, wenn Sie nicht wollten, dass sie im Internet sind.“ Die Klage behauptet, Gemini produziere jetzt Ausgaben, die „für urheberrechtlich geschützte Werke einspringen“, einschließlich wortwörtlicher Reproduktionen, detaillierter Zusammenfassungen und „Kopien, die kreative Elemente der Originalwerke nachahmen“. Decrypt hat sich an Google und die Anwälte der Verlage gewandt. KI und Verlage Google verteidigt sich gleichzeitig gegen Kartellrechtsansprüche der Penske Media Corporation bezüglich seiner KI-Übersichten-Funktion, wobei das Tech-Unternehmen behauptet, die Anzeige KI-generierter Zusammenfassungen stelle „rechtmäßige Produktverbesserung und kein wettbewerbswidriges Verhalten“ dar. Die Verlage fordern gesetzliche Schadensersatzansprüche, einstweilige Verfügungen zur Beendigung weiterer Verletzungen und eine Anordnung, Google zu verpflichten, alle unautorisierten Kopien ihrer Werke zu vernichten und offenzulegen, welche Bücher zum Training von Gemini verwendet wurden. Der Antrag auf Intervention folgt einer Reihe von Urheberrechtsklagen, die Autoren im Jahr 2023 gegen KI-Unternehmen eingereicht haben, wobei Bundesrichter teilweise Siege für Meta und Anthropic zusprachen, die entschieden, dass deren Nutzung urheberrechtlich geschützter Bücher zum Training ihrer Modelle unter fair use fällt, aber die Unternehmen dafür kritisierten, dauerhafte Bibliotheken piratischer Bücher zu pflegen.