Genesis II memperluas Dataset Pendidikan AI Sintetik QVAC menjadi 148 Miliar Token

Divisi riset kecerdasan buatan Tether Data, QVAC, telah mengungkapkan iterasi terbaru dari dataset sintetis sumber terbuka mereka, menandai kemajuan signifikan dalam kemampuan pra-pelatihan model AI. Rilis baru ini memperkenalkan 107 miliar token tambahan, mendorong total dataset menjadi 148 miliar token yang mencakup 19 domain berfokus pada pendidikan—menetapkannya sebagai dataset sintetis terbesar yang tersedia secara publik untuk pengembangan AI.

Terobosan dalam Kemampuan Divisi Sintetis dan Penalaran

Dataset Genesis II memperkenalkan perubahan mendasar dalam cara struktur data sintetis mengatur informasi pelatihan. Alih-alih sekadar akumulasi token, QVAC menerapkan pendekatan “divisi sintetis” yang membagi konten pendidikan ke dalam domain khusus, masing-masing dioptimalkan untuk tujuan pembelajaran tertentu. Metodologi ini memungkinkan kontrol yang lebih rinci atas parameter pelatihan model.

Fitur khas dari rilis ini adalah pengenalan “Penalaran Tingkat Opsi,” sebuah pendekatan pelatihan baru yang membimbing model AI melalui kerangka pemecahan masalah pilihan ganda. Berbeda dengan generasi sebelumnya yang berfokus pada pengenalan pola, metode ini secara eksplisit mengajarkan model langkah-langkah penalaran menengah yang diperlukan untuk mencapai kesimpulan. Evaluasi independen menunjukkan bahwa model yang dilatih dengan data Genesis II menunjukkan akurasi penalaran yang lebih baik dan menghasilkan respons yang lebih koheren dan terstruktur dengan baik dibandingkan dataset sintetis sebelumnya.

Perluasan Cakupan Domain dan Aksesibilitas

Genesis II memperluas ke bidang yang sebelumnya kurang terwakili termasuk ilmu komputer, statistik, dan pembelajaran mesin—domain yang penting untuk mengembangkan sistem AI yang mampu memecahkan masalah analitis yang kompleks. Perluasan ini membangun fondasi yang telah ditetapkan dalam Genesis I, yang mempelopori metodologi analisis kegagalan untuk mengidentifikasi dan memperbaiki titik lemah dalam penalaran model.

Seluruh dataset dirilis di bawah lisensi Creative Commons dan dihosting di blog resmi QVAC serta Hugging Face, mendemokratisasi akses ke data pelatihan tingkat perusahaan. Model distribusi terbuka ini menghilangkan hambatan bagi peneliti dan pengembang yang bekerja pada model AI lokal, mengurangi ketergantungan pada platform pengembangan AI milik dan terpusat.

Visi Strategis dan Dampak Industri

Paolo Ardoino, CEO Tether, menggambarkan inisiatif ini sebagai langkah penting dalam menggerakkan pengembangan kecerdasan buatan dari sekadar kefasihan linguistik menuju pemahaman yang kokoh dan terstruktur. Dengan menyediakan akses gratis ke data pelatihan sintetis berkualitas tinggi, QVAC memungkinkan komunitas riset AI yang lebih luas untuk mengembangkan model yang lebih andal dan transparan di luar ekosistem perusahaan tradisional.

Rilis ini menegaskan pengakuan yang semakin meningkat bahwa data pra-pelatihan berkualitas—khususnya dataset sintetis yang dioptimalkan untuk nilai edukatif—merupakan keunggulan kompetitif yang penting dalam pengembangan model. Seiring sistem AI menjadi semakin sentral dalam bisnis dan penelitian, inisiatif seperti Genesis II memberikan kontribusi yang berarti terhadap demokratisasi kemampuan pelatihan model tingkat lanjut.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan

Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)