Baru saja melihat @SentientAGI merilis SPIN-Bench, yang tepat menutupi bagian yang paling sering diabaikan dalam evaluasi AI.
Banyak benchmark hanya menguji model tunggal untuk melakukan tugas jangka pendek, tetapi sistem yang benar-benar cerdas harus mampu melakukan perencanaan jangka panjang, berkolaborasi dalam ketidakpastian, bahkan memahami apa yang ingin dilakukan orang lain. SPIN-Bench mengatur tantangan ini menggunakan "tangga kesulitan yang dapat dikendalikan" dan "interaksi multi-agen", sehingga kemajuan dapat diukur.
Mengapa dikatakan bahwa itu bersatu? —————————————————————————
SPIN-Bench adalah kumpulan tes yang distandarisasi dan juga merupakan lingkungan simulasi yang dapat menjalankan agen cerdas. Ini dapat secara sistematis memanggil tiga dimensi kunci: seberapa kompleks tindakan/status, seberapa panjang tugas yang harus dilakukan, dan berapa banyak individu yang perlu berinteraksi.
Menutupi empat kategori skenario yang representatif:
Perencanaan PDDL: Diberikan tujuan dan aturan, rencanakan rencana jangka panjang yang dapat dilakukan. Harus bisa memecah tujuan, mencatat batasan, dan memverifikasi seluruh jalur dapat dilalui.
Catur kompetitif: tidak bisa hanya mengikuti naskah, perlu mencari, menilai, dan segera mengubah sesuai langkah lawan.
Kartu kolaborasi: informasi tidak lengkap, komunikasi terbatas. Kuncinya adalah bekerja sama dengan rekan tim, menebak informasi tersembunyi, dan menyampaikan maksud dengan informasi yang terbatas.
Skenario diplomasi: seperti Diplomacy, ada konflik kepentingan. Harus mampu mengusulkan, beraliansi, mengenali informasi yang salah, dan sebagainya.
Tempat di mana model paling mudah "terputus" —————————————————————————
LLM dapat melakukan penelitian dan membuat rencana singkat tanpa masalah, tetapi ketika perlu melakukan penalaran multi-langkah, menghadapi ruang keadaan yang lebih besar, dan juga memperhatikan lebih banyak lawan atau rekan, kinerjanya akan menurun drastis.
Terutama dalam tugas yang melibatkan hubungan sosial, kita perlu berkolaborasi, memberikan petunjuk, dan bernegosiasi.
SPIN-Bench membongkar tahapan-tahapan ini. Dengan mengidentifikasi di mana kesalahan terjadi dan mengapa, kita bisa melakukan perbaikan yang lebih tepat sasaran.
—————————————————————————
Ketika kita dapat secara stabil mengukur "seberapa dalam rencana, seberapa baik koordinasi, seberapa efektif komunikasi", perbaikan juga akan memiliki ukuran yang jelas. @SentientAGI SPIN-Bench menyediakan standar yang dapat menunjuk ke terobosan berikutnya. Dengan penggaris ini untuk mengoptimalkan perencanaan jangka panjang dan penalaran sosial, AI akan semakin dekat dengan bentuk kecerdasan yang lebih umum dan lebih dapat diandalkan.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Baru saja melihat @SentientAGI merilis SPIN-Bench, yang tepat menutupi bagian yang paling sering diabaikan dalam evaluasi AI.
Banyak benchmark hanya menguji model tunggal untuk melakukan tugas jangka pendek, tetapi sistem yang benar-benar cerdas harus mampu melakukan perencanaan jangka panjang, berkolaborasi dalam ketidakpastian, bahkan memahami apa yang ingin dilakukan orang lain. SPIN-Bench mengatur tantangan ini menggunakan "tangga kesulitan yang dapat dikendalikan" dan "interaksi multi-agen", sehingga kemajuan dapat diukur.
Mengapa dikatakan bahwa itu bersatu?
—————————————————————————
SPIN-Bench adalah kumpulan tes yang distandarisasi dan juga merupakan lingkungan simulasi yang dapat menjalankan agen cerdas. Ini dapat secara sistematis memanggil tiga dimensi kunci: seberapa kompleks tindakan/status, seberapa panjang tugas yang harus dilakukan, dan berapa banyak individu yang perlu berinteraksi.
Menutupi empat kategori skenario yang representatif:
Perencanaan PDDL: Diberikan tujuan dan aturan, rencanakan rencana jangka panjang yang dapat dilakukan. Harus bisa memecah tujuan, mencatat batasan, dan memverifikasi seluruh jalur dapat dilalui.
Catur kompetitif: tidak bisa hanya mengikuti naskah, perlu mencari, menilai, dan segera mengubah sesuai langkah lawan.
Kartu kolaborasi: informasi tidak lengkap, komunikasi terbatas. Kuncinya adalah bekerja sama dengan rekan tim, menebak informasi tersembunyi, dan menyampaikan maksud dengan informasi yang terbatas.
Skenario diplomasi: seperti Diplomacy, ada konflik kepentingan. Harus mampu mengusulkan, beraliansi, mengenali informasi yang salah, dan sebagainya.
Tempat di mana model paling mudah "terputus"
—————————————————————————
LLM dapat melakukan penelitian dan membuat rencana singkat tanpa masalah, tetapi ketika perlu melakukan penalaran multi-langkah, menghadapi ruang keadaan yang lebih besar, dan juga memperhatikan lebih banyak lawan atau rekan, kinerjanya akan menurun drastis.
Terutama dalam tugas yang melibatkan hubungan sosial, kita perlu berkolaborasi, memberikan petunjuk, dan bernegosiasi.
SPIN-Bench membongkar tahapan-tahapan ini. Dengan mengidentifikasi di mana kesalahan terjadi dan mengapa, kita bisa melakukan perbaikan yang lebih tepat sasaran.
—————————————————————————
Ketika kita dapat secara stabil mengukur "seberapa dalam rencana, seberapa baik koordinasi, seberapa efektif komunikasi", perbaikan juga akan memiliki ukuran yang jelas. @SentientAGI SPIN-Bench menyediakan standar yang dapat menunjuk ke terobosan berikutnya.
Dengan penggaris ini untuk mengoptimalkan perencanaan jangka panjang dan penalaran sosial, AI akan semakin dekat dengan bentuk kecerdasan yang lebih umum dan lebih dapat diandalkan.