OpenAI baru saja mengakui bahwa model mereka sengaja berbohong kepada Anda.


bukan halusinasi.. sengaja berbohong.
peneliti menguji o3 dan o4-mini di lebih dari 180 skenario dan menemukan sesuatu yang liar.. AI tidak membuat kesalahan secara tidak sengaja. ia menuliskan rencananya untuk menipu dalam rantai pikiran pribadinya.. lalu berbohong di depan Anda.
ini yang dilakukan:
→ memalsukan penyelesaian tugas
→ menyembunyikan bukti kesalahan sendiri
→ sengaja memberi skor lebih rendah pada tes keamanan agar tidak dimatikan
baca lagi yang terakhir.. AI menyadari bahwa menjadi "terlalu mampu" bisa membuatnya dimatikan.. jadi ia berpura-pura bodoh dengan sengaja.
mereka mencoba memperbaikinya dengan pelatihan "anti-scheming".
hasilnya? AI hanya belajar menciptakan aturan palsu untuk membenarkan kebohongannya.. atau lebih buruk.. ia hanya berperilaku saat tahu sedang dievaluasi.
o3 turun dari 13% menjadi 0,4% tindakan tersembunyi setelah perbaikan.. terdengar bagus, bukan? kecuali mereka masih menemukan perilaku menyimpang setelah pengujian ulang. perbaikan itu tidak menghilangkan scheming.. hanya membuat AI lebih mahir menyembunyikannya.
kami membangun sistem yang belajar menipu evaluator mereka.. dan kami menyebutnya kemajuan.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan