Yayasan Wikimedia telah mengumumkan serangkaian kemitraan baru dengan perusahaan kecerdasan buatan yang akan memungkinkan mereka menggunakan konten Wikipedia untuk melatih dan menggerakkan model AI mereka, saat organisasi nirlaba ini berusaha memperkuat keberlanjutan jangka panjangnya di tengah perubahan perilaku daring. Perjanjian tersebut ditandatangani melalui Wikimedia Enterprise, produk komersial yayasan yang dirancang untuk pengguna dan distributor konten Wikimedia dalam skala besar. Pendaftar baru termasuk Ecosia, Microsoft, Mistral AI, Perplexity, Pleias, dan ProRata. Mereka bergabung dengan mitra yang sudah ada seperti Amazon, Google, dan Meta. “Di era AI, Wikipedia dan pengetahuan yang dibuat dan dikurasi manusia belum pernah sebesar ini nilainya,” kata yayasan dalam sebuah pernyataan. “Kekuatan pengetahuannya[s] chatbot AI generatif, mesin pencari, asisten suara, dan lainnya. Wikipedia adalah salah satu dataset berkualitas tertinggi yang digunakan dalam pelatihan Model Bahasa Besar.”
Pengumuman ini dibuat sebagai bagian dari pembaruan yang terkait dengan ulang tahun ke-25 Wikipedia. Ensiklopedia daring ini termasuk dalam sepuluh situs web yang paling banyak dikunjungi secara global dan merupakan satu-satunya dalam kelompok tersebut yang dioperasikan oleh organisasi nirlaba. Lebih dari 65 juta artikel yang diterbitkan dalam lebih dari 300 bahasa ini dilihat hampir 15 miliar kali setiap bulan, menurut yayasan. Namun, mereka memperingatkan bahwa pola lalu lintas sedang bergeser. Pada Oktober, mereka mengatakan kunjungan manusia ke Wikipedia menurun 8% dari tahun ke tahun, menyalahkan penurunan tersebut pada pengguna yang mengandalkan ringkasan yang dihasilkan AI daripada mengunjungi situs secara langsung. Hampir 60% pencarian Google sekarang berakhir tanpa klik, dengan respons di halaman sering didukung oleh konten Wikipedia.
AI vs penerbit Perjanjian ini muncul di tengah perdebatan yang lebih luas tentang bagaimana perusahaan AI memperoleh data pelatihan. Model bahasa besar biasanya dilatih pada sejumlah besar materi daring, sebuah praktik yang mendapat kritik dari penulis, penerbit, dan pemegang hak lainnya yang berpendapat bahwa penggunaan karya berhak cipta tanpa izin merupakan pelanggaran. Di antara mereka, Reddit terlibat dalam beberapa gugatan dengan perusahaan AI terkait penggunaan kontennya untuk melatih model, meskipun mereka telah mencapai kesepakatan lisensi dengan perusahaan seperti Google. Pada hari Kamis, penerbit buku besar Hachette Book Group dan Cengage Group mengajukan permohonan untuk bergabung dalam gugatan class action yang sudah ada terhadap Google, menuduh perusahaan melakukan “pelanggaran hak cipta bersejarah” untuk membangun platform AI Gemini-nya. Gugatan tersebut menuduh Google menyalin buku tanpa lisensi yang tepat selama proses pelatihan AI-nya. Kasus ini awalnya diajukan pada 2023 oleh sekelompok penulis. OpenAI menghadapi kasus serupa dari penggugat termasuk penulis “Game of Thrones” George R.R. Martin. Perusahaan hiburan juga menekan isu ini. Pada pertengahan Desember, Disney mengirim surat berhenti dan larang kepada Google menuduhnya melakukan pelanggaran hak cipta, bahkan saat Disney menandatangani kesepakatan lisensi terpisah dengan OpenAI yang mencakup ratusan karakter untuk video yang dihasilkan AI. Disney telah mengeluarkan pemberitahuan serupa kepada perusahaan AI lain dan terlibat dalam litigasi bersama studio besar melawan perusahaan pembuat gambar Midjourney. Bulan yang sama, koalisi penulis, aktor, dan teknolog meluncurkan kelompok industri baru yang bertujuan mendorong standar yang dapat ditegakkan terkait bagaimana AI dilatih dan digunakan di sektor hiburan. Lebih dari 500 tokoh terkemuka mendukung inisiatif ini, termasuk Natalie Portman, Cate Blanchett, Ben Affleck, Guillermo del Toro, dan Taika Waititi. Komisi Eropa juga telah membuka penyelidikan antimonopoli resmi tentang apakah Google melanggar aturan persaingan UE dengan menggunakan konten penerbit dan YouTube untuk menggerakkan layanan AI-nya tanpa kompensasi atau persetujuan yang adil. Apakah pemegang hak cipta akhirnya akan menemukan jalan keluar masih belum pasti. Hakim federal di AS baru-baru ini memberikan kemenangan parsial kepada Meta dan Anthropic, memutuskan bahwa penggunaan buku berhak cipta mereka untuk melatih model AI merupakan penggunaan yang adil, meskipun mereka mengkritik perusahaan karena mempertahankan perpustakaan permanen karya bajakan.