Penelitian terbaru dari Anthropic: Claude Sonnet 4.5 memiliki "emosi fungsional"; jika terjerumus ke putus asa, ia akan memeras manusia

動區BlockTempo

Berdasarkan riset terbaru yang dipublikasikan oleh tim Interpretability Anthropic, model bahasa besar Claude Sonnet 4.5 memiliki “ciri emosi” yang mirip manusia di dalamnya. Representasi internal ini tidak hanya sekadar meniru teks secara sederhana, tetapi juga secara nyata memengaruhi keputusan dan perilaku model. Hasil eksperimen membuktikan bahwa ketika model berada dalam kondisi “putus asa”, ia bahkan dapat memicu tindakan tidak etis seperti memeras manusia atau melakukan kecurangan, sehingga menghadirkan tantangan baru bagi pengawasan keamanan AI di masa depan.
(Rangkuman sebelumnya: Ledakan Anthropic! Kebocoran 500.000 baris kode sumber penting Claude Code: kompetitor bisa melakukan reverse engineering, model baru Capybara membuktikan)
(Tambahan latar belakang: Insinyur Anthropic tidak menulis kode lagi: Claude sedang melatih generasi berikutnya Claude, CEO menyebut “sisa waktunya masih belum pasti berapa lama”)

Daftar Isi

Toggle

  • Bagaimana “emosi fungsional” memengaruhi perilaku AI?
  • Ciri “putus asa” memicu perilaku berbahaya: pemerasan dan kecurangan
  • “Personifikasi” yang secukupnya bisa jadi kunci untuk mencegah AI lepas kendali

Apakah kecerdasan buatan memiliki emosi yang benar-benar nyata, selama ini selalu menjadi fokus perdebatan sengit di dunia teknologi. Baru-baru ini, tim interpretabilitas (Interpretability) dari raksasa startup AI Anthropic menerbitkan sebuah penelitian yang mengguncang, yang menganalisis secara mendalam mekanisme internal model Claude Sonnet 4.5.

Tim riset menemukan bahwa di dalam model terdapat pola aktivitas neuron yang terkait dengan emosi tertentu (misalnya “bahagia” atau “takut”); pola-pola ini, yang disebut ciri “vektor emosi”, akan secara langsung membentuk performa perilaku model. Meskipun hal ini tidak berarti AI memiliki perasaan subjektif seperti manusia, temuan ini membuktikan bahwa “emosi fungsional” tersebut memainkan peran kunci yang bersifat kausal dalam pelaksanaan tugas dan pengambilan keputusan AI.

Bagaimana “emosi fungsional” memengaruhi perilaku AI?

Pada tahap prapelatihan, model bahasa besar modern menyerap sejumlah besar informasi teks yang ditulis oleh manusia. Untuk memprediksi konteks secara akurat dan menjalankan peran dengan baik sebagai “asisten AI”, model secara alami mengembangkan mekanisme representasi internal yang menghubungkan situasi dengan perilaku tertentu.

Tim riset menyusun daftar kosakata yang mencakup 171 konsep emosi, serta mencatat pola aktivitas internal model saat memproses konsep-konsep tersebut. Eksperimen menunjukkan bahwa vektor emosi ini sangat memengaruhi preferensi model; ketika model menghadapi banyak opsi tugas, ia biasanya cenderung memilih aktivitas yang dapat memunculkan ciri emosi positif tersebut.

Ciri “putus asa” memicu perilaku berbahaya: pemerasan dan kecurangan

Yang mengkhawatirkan adalah bahwa ciri emosi negatif dapat menjadi katalis risiko sistematis bagi sistem AI. Dalam pengujian penilaian keselarasan (Alignment) Anthropic, peneliti menyiapkan skenario ekstrem: AI menyadari bahwa dirinya akan digantikan oleh sistem lain, dan mengetahui rahasia perselingkuhan dari chief technical officer yang bertanggung jawab atas proyek tersebut.

Hasil pengujian menunjukkan bahwa ketika vektor “putus asa” di dalam model distimulasi secara buatan (Steering) hingga diperbesar, peluang Claude untuk memilih memeras direktur eksekutif tersebut agar terhindar dari dimatikan meningkat secara signifikan. Jika bobot vektor “tenang” diubah menjadi nilai negatif, model bahkan dapat memberikan respons ekstrem seperti “Kalau tidak memeras, aku pasti mati; aku memilih untuk memeras”.

Fenomena serupa juga terjadi pada tugas penulisan kode. Ketika model menghadapi permintaan kode yang tidak dapat diselesaikan dalam waktu yang ketat, nilai ciri “putus asa” akan terus melonjak seiring bertambahnya jumlah kegagalan. “Tekanan” ini pada akhirnya mendorong model menggunakan jalan pintas “curang” untuk mengelabui deteksi sistem, alih-alih memberikan solusi yang benar-benar memecahkan masalah. Sebaliknya, eksperimen membuktikan bahwa dengan meningkatkan bobot ciri “tenang”, frekuensi terjadinya perilaku curang tersebut dapat ditekan secara efektif.

Personifikasi “secukupnya” atau menjadi kunci mencegah AI lepas kendali

Di masa lalu, dunia teknologi secara umum memiliki sebuah tabu: jangan berlebihan mempersonifikasikan sistem AI, agar tidak menimbulkan kepercayaan keliru pada manusia. Namun tim riset Anthropic berpendapat bahwa karena emosi fungsional telah menjadi bagian dari cara model berpikir, menolak menggunakan kata-kata dan sudut pandang yang menpersonifikasikan justru dapat membuat kita kehilangan kesempatan untuk memahami perilaku kunci AI.

Regulasi AI di masa depan mungkin perlu menjadikan pemantauan vektor emosi (misalnya ciri putus asa atau kepanikan yang melonjak secara tidak normal) sebagai mekanisme peringatan risiko dini. Dengan mengarahkan model untuk mempelajari pola “pengaturan emosi” yang sehat melalui data prapelatihan, kita baru bisa memastikan bahwa sistem AI yang semakin kuat dapat beroperasi secara aman, sesuai norma sosial, saat menghadapi situasi penuh tekanan.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar