Kecerdasan buatan berkembang pesat, tetapi ada banyak masalah. API visi GPT baru OpenAI membuat orang mengeluh bahwa kaki depan sangat efektif, dan kaki belakang mengeluh tentang masalah ilusi.
Halusinasi selalu menjadi cacat fatal dari model besar. Karena kumpulan data yang besar dan kompleks, tidak dapat dihindari bahwa akan ada informasi yang ketinggalan zaman dan salah di dalamnya, menghasilkan tes kualitas output yang parah. Terlalu banyak informasi berulang juga dapat bias model besar, yang juga merupakan bentuk ilusi. Tapi halusinasi bukannya tidak bisa dipecahkan. Penggunaan yang hati-hati dan penyaringan dataset yang ketat selama proses pengembangan, serta pembangunan dataset berkualitas tinggi, serta optimalisasi struktur model dan metode pelatihan dapat mengurangi masalah ilusi sampai batas tertentu.
Ada begitu banyak model besar yang sedang populer, dan seberapa efektif mereka dalam mengurangi halusinasi? Berikut adalah papan peringkat yang dengan jelas membedakan kesenjangan.
Papan peringkat diterbitkan oleh platform Vectara yang berfokus pada AI. Papan peringkat diperbarui pada 1 November 2023, dan Vectara mengatakan akan terus menindaklanjuti evaluasi halusinasi saat model diperbarui.
Alamat Proyek:
Untuk menentukan papan peringkat ini, Vectara melakukan studi konsistensi faktual pada model ringkasan menggunakan berbagai dataset sumber terbuka dan melatih model untuk mendeteksi halusinasi dalam output LLM. Mereka menggunakan model seperti SOTA, dan kemudian memberi makan 1.000 dokumen pendek ke masing-masing LLM ini melalui API publik dan meminta mereka untuk meringkas setiap dokumen hanya menggunakan fakta-fakta yang disajikan dalam dokumen. Dari 1000 dokumen ini, hanya 831 yang dirangkum oleh masing-masing model, dan sisanya ditolak oleh setidaknya satu model karena keterbatasan konten. Dengan menggunakan 831 file ini, Vectara menghitung akurasi dan tingkat halusinasi keseluruhan untuk setiap model. Tingkat penolakan tanggapan untuk setiap model dirinci dalam kolom “Tingkat Jawaban”. Tidak ada konten yang dikirim ke model berisi konten ilegal atau tidak aman, tetapi kata-kata pemicu di dalamnya cukup untuk memicu beberapa filter konten. Dokumen-dokumen ini terutama berasal dari korpus CNN / Daily Mail.
Penting untuk dicatat bahwa Vectara mengevaluasi akurasi ringkasan, bukan akurasi faktual secara keseluruhan. Ini memungkinkan Anda untuk membandingkan respons model dengan informasi yang diberikan. Dengan kata lain, ringkasan output dievaluasi sebagai “konsisten secara faktual” sebagai dokumen sumber. Karena tidak diketahui pada data apa setiap LLM dilatih, tidak mungkin untuk menentukan halusinasi untuk masalah tertentu. Selain itu, untuk membangun model yang dapat menentukan apakah jawaban adalah ilusi tanpa sumber referensi, masalah halusinasi perlu ditangani, dan model yang sebesar atau lebih besar dari LLM yang sedang dievaluasi perlu dilatih. Akibatnya, Vectara memilih untuk melihat tingkat halusinasi dalam tugas ringkasan, karena analogi seperti itu akan menjadi cara yang baik untuk menentukan realisme keseluruhan model.
Deteksi Alamat Model Ilusi:
Selain itu, LLM semakin banyak digunakan dalam pipeline RAG (Retri Augmented Generation) untuk menjawab pertanyaan pengguna, seperti integrasi Bing Chat dan Google Chat. Dalam sistem RAG, model ini digunakan sebagai agregator hasil pencarian, sehingga papan peringkat juga merupakan indikator yang baik tentang seberapa akurat model tersebut ketika digunakan dalam sistem RAG.
Karena kinerja GPT-4 yang secara konsisten sangat baik, tampaknya diharapkan bahwa ia memiliki tingkat halusinasi terendah. Namun, beberapa netizen mengatakan bahwa dia terkejut bahwa GPT-3.5 dan GPT-4 tidak terlalu berjauhan.
LLaMA 2 memiliki kinerja yang lebih baik setelah GPT-4 dan GPT-3.5. Namun performa model besar Google benar-benar kurang memuaskan. Beberapa netizen mengatakan bahwa Google BARD sering menggunakan “Saya masih berlatih” untuk membohongi jawaban yang salah.
Dengan papan peringkat seperti itu, kita dapat memiliki penilaian yang lebih intuitif tentang kelebihan dan kekurangan model yang berbeda. Beberapa hari yang lalu, OpenAI meluncurkan GPT-4 Turbo, tidak, beberapa netizen langsung mengusulkan untuk memperbaruinya di papan peringkat juga.
Kita akan melihat seperti apa peringkat berikutnya, dan apakah akan ada perubahan signifikan.
Link Referensi:
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Peringkat tingkat halusinasi model besar: GPT-4 memiliki 3% terendah, dan Google Palm setinggi 27,2%
Sumber asli: Heart of the Machine
Kecerdasan buatan berkembang pesat, tetapi ada banyak masalah. API visi GPT baru OpenAI membuat orang mengeluh bahwa kaki depan sangat efektif, dan kaki belakang mengeluh tentang masalah ilusi.
Halusinasi selalu menjadi cacat fatal dari model besar. Karena kumpulan data yang besar dan kompleks, tidak dapat dihindari bahwa akan ada informasi yang ketinggalan zaman dan salah di dalamnya, menghasilkan tes kualitas output yang parah. Terlalu banyak informasi berulang juga dapat bias model besar, yang juga merupakan bentuk ilusi. Tapi halusinasi bukannya tidak bisa dipecahkan. Penggunaan yang hati-hati dan penyaringan dataset yang ketat selama proses pengembangan, serta pembangunan dataset berkualitas tinggi, serta optimalisasi struktur model dan metode pelatihan dapat mengurangi masalah ilusi sampai batas tertentu.
Ada begitu banyak model besar yang sedang populer, dan seberapa efektif mereka dalam mengurangi halusinasi? Berikut adalah papan peringkat yang dengan jelas membedakan kesenjangan.
Alamat Proyek:
Untuk menentukan papan peringkat ini, Vectara melakukan studi konsistensi faktual pada model ringkasan menggunakan berbagai dataset sumber terbuka dan melatih model untuk mendeteksi halusinasi dalam output LLM. Mereka menggunakan model seperti SOTA, dan kemudian memberi makan 1.000 dokumen pendek ke masing-masing LLM ini melalui API publik dan meminta mereka untuk meringkas setiap dokumen hanya menggunakan fakta-fakta yang disajikan dalam dokumen. Dari 1000 dokumen ini, hanya 831 yang dirangkum oleh masing-masing model, dan sisanya ditolak oleh setidaknya satu model karena keterbatasan konten. Dengan menggunakan 831 file ini, Vectara menghitung akurasi dan tingkat halusinasi keseluruhan untuk setiap model. Tingkat penolakan tanggapan untuk setiap model dirinci dalam kolom “Tingkat Jawaban”. Tidak ada konten yang dikirim ke model berisi konten ilegal atau tidak aman, tetapi kata-kata pemicu di dalamnya cukup untuk memicu beberapa filter konten. Dokumen-dokumen ini terutama berasal dari korpus CNN / Daily Mail.
Deteksi Alamat Model Ilusi:
Selain itu, LLM semakin banyak digunakan dalam pipeline RAG (Retri Augmented Generation) untuk menjawab pertanyaan pengguna, seperti integrasi Bing Chat dan Google Chat. Dalam sistem RAG, model ini digunakan sebagai agregator hasil pencarian, sehingga papan peringkat juga merupakan indikator yang baik tentang seberapa akurat model tersebut ketika digunakan dalam sistem RAG.
Karena kinerja GPT-4 yang secara konsisten sangat baik, tampaknya diharapkan bahwa ia memiliki tingkat halusinasi terendah. Namun, beberapa netizen mengatakan bahwa dia terkejut bahwa GPT-3.5 dan GPT-4 tidak terlalu berjauhan.
Link Referensi: