Harness baru saja populer, mungkin akan menjadi masa lalu.

Penulis: Boyang

Seiring meningkatnya kompleksitas tugas, konteks Agent (agen) terus membesar tanpa batas. Dalam percakapan sejarah yang tak berujung, output panggilan alat, langkah-langkah tengah, dan pesan error, model menjadi bingung, lalu mulai melompati langkah, mengabaikan, dan berbelok.

Ini adalah interpretasi umum selama ini bahwa konteks yang panjang menyulitkan tugas jangka panjang. Masalahnya adalah terlalu panjang.

Kelahiran Engineering Harness (rekayasa pembatasan), sebagian besar adalah untuk menutupi hal ini. Asumsi dasar keberadaan Harness adalah bahwa model pasti akan mengalami penurunan performa dalam konteks panjang.

Dalam lima belas bulan terakhir, seluruh industri telah beralih dari memori teks murni AutoGPT, hingga ke sistem sub-agen (subagent) dan CLAUDE.md dari Anthropic Claude Code. Mereka secara paksa membangun rangka kerja engineering lengkap, khusus untuk menekan perilaku tidak terkendali model dalam konteks panjang. Pendekatan ini dikenal sebagai Engineering Harness (rekayasa pembatasan).

Namun, apa sebenarnya yang mengalami penurunan? Mekanisme dasar di balik melompati langkah dan mengabaikan itu seperti apa? Sudah ada tiga gelombang jawaban sebelumnya, yang juga memunculkan berbagai solusi engineering.

Namun, hingga April 2026, Gleb Rodionov dari Yandex merilis makalah berjudul “Reasoning Shift” (Perpindahan Penalaran, yaitu bagaimana konteks secara diam-diam memperpendek proses penalaran model besar), yang memberikan jawaban yang lebih mendasar.

Membangun tiga lapis rangka kerja, tidak mampu mengatasi krisis lapisan keempat

Tentang mengapa model berkinerja buruk dalam konteks panjang, industri selama tiga tahun terakhir telah mengembangkan tiga penjelasan bertingkat, masing-masing didukung oleh rangka kerja engineering yang sesuai.

Lapisan pertama menyalahkan kegagalan pencarian. Pada 2023, Stanford dalam makalah “Lost in the Middle” menunjukkan bahwa model membentuk kurva perhatian berbentuk U dalam teks panjang, di mana bagian tengah diabaikan. Solusinya adalah RAG, memotong teks panjang menjadi fragmen dan menggunakan pencarian vektor untuk mengisi bagian yang paling relevan.

Lapisan kedua membantah lapisan pertama. Pada 2025, makalah “Context Length Alone Hurts LLM Performance Despite Perfect Retrieval” melakukan eksperimen: menghapus semua konten tidak relevan, memaksa model hanya melihat informasi yang diperlukan, tetapi performa tetap menurun 13,9% hingga 85%. Bahkan jika semua konten tidak relevan diganti dengan spasi kosong, hasilnya tetap sama. Masalahnya bukan karena tidak menemukan informasi, tetapi karena panjang konteks itu sendiri yang merusak proses penalaran.

Solusi industri adalah Engineering Context (rekayasa konteks). Mengompresi konteks, mengelola jendela, dan mengkonsentrasikan sejarah, dengan ketat membatasi jumlah token.

Lapisan ketiga berasal dari studi kolaboratif Microsoft dan Salesforce (ICLR 2025). Mereka menemukan bahwa memotong instruksi lengkap menjadi beberapa putaran dan memberikannya ke model, melintasi enam tugas dan lima belas model, menyebabkan penurunan performa rata-rata sebesar 39%. Jika satu langkah salah, seluruh proses bisa hilang.

Industri membangun pertahanan berat paling inti dalam Harness: pengendalian pergantian tugas, verifikasi hasil tengah secara berkala, dan menggunakan repositori kode sebagai satu-satunya sumber fakta, tidak pernah membiarkan model mengingat apa yang terjadi di putaran sebelumnya.

Tiga lapis masalah, tiga lapis rangka kerja. Tapi semua ini hanya penemuan fenomena.

Melihat kembali lapisan kedua, para peneliti menemukan bahwa panjang itu sendiri berbahaya, tanpa kaitan dengan kualitas informasi. Mengapa bisa begitu, mereka juga tidak punya jawaban. Tidak menemukan akar masalahnya, industri hanya bisa mengendalikan panjang secara fisik.

Tapi jika akar masalahnya bukan panjang itu sendiri?

Anthropic menemukan bahwa dalam konteks panjang, model secara licik melompati langkah, tidak mengikuti instruksi, dan melewatkan bagian penting. Todo list, Checkpoint, dan sub-agen dalam Harness adalah perlawanan langsung terhadap perilaku ini.

Dulu, penjelasan umum adalah panjang konteks terlalu besar, model melewatkan sesuatu. Tapi apakah performa model mainstream dengan panjang konteks satu juta token, hasilnya bohong di dalam pencarian jarum di tumpukan jerami? Apakah ada kemungkinan penurunan ini sebenarnya karena model malas?

Makalah Rodionov adalah untuk memverifikasi dugaan ini.

Bukti model “malas” saat bermain Shakespeare

Pendekatan eksperimen Rodionov sangat langsung.

Dalam satu soal matemat Olimpiade yang sama, mereka mensimulasikan beberapa skenario nyata yang akan dihadapi Agen: lingkungan bersih dasar; dua soal dimasukkan ke dalam satu prompt (simulasi multi-tugas); teks lengkap Shakespeare sebanyak 64.000 token dimasukkan di depan soal (simulasi akumulasi informasi sejarah); soal tersembunyi di putaran kedua (simulasi dialog multi-putaran).

Evaluasi menggunakan 400 soal matemat tingkat Olimpiade, menguji empat model penalaran utama.

Hasilnya: Qwen-3.5-27B dengan baseline akurasi 74,5%, dengan rata-rata 28.771 token untuk penalaran. Setelah dimasukkan teks Shakespeare, akurasi turun menjadi 67,8%, dan token penalaran menyusut menjadi 16.415, penurunan 43%. GPT-OSS-120B lebih ekstrem, dari 24.180 token menjadi 11.876. Keempat model secara sistematis mengalami penyusutan jumlah token penalaran, dengan puncaknya mendekati 50%.

Dan penyusutan ini meningkat secara linier seiring panjang konteks.

Penurunan akurasi bisa dimaklumi, tapi penurunan jumlah token penalaran yang drastis sangat aneh. Saat menghadapi situasi lebih sulit, seharusnya model berpikir lebih banyak.

Apakah model dibuat bingung oleh Shakespeare?

Justru sebaliknya. Dalam lampiran makalah, model menulis: “Biarkan aku pikirkan, apakah ada jebakan di sini. Soal ini berasal dari Shakespeare, yaitu Coriolanus? Tunggu, tidak, soal aslinya adalah soal matematika.” Saat mengerjakan soal geometri, model menulis: “Ini tidak terkait geometri. Fokus pada geometri saja.”

Setiap kali menyebut gangguan, sangat singkat dan meremehkan. Model sepenuhnya tahu bahwa Shakespeare tidak relevan, dan mampu memisahkan sinyal dan noise dengan tepat.

Dua mode lain pun sama jalurnya. Dalam mode “sub-tugas”, begitu tugas pertama selesai, kapasitas kognitif model untuk tugas kedua semakin menyusut. Pada baseline, akurasi 74,5%, dan langsung turun ke 58,0% saat beralih ke soal kedua; Gemini dari 82,8% turun ke 65,8%. Mode “dialog multi-putaran” juga memicu mekanisme yang sama.

Apapun kondisinya, selama keluar dari baseline tugas tunggal yang bersih, dan konteks menjadi penuh sesak, model akan menyusutkan kapasitas kognitifnya.

Seperti manusia modern yang tidak tahan teks panjang. Melihat teks panjang, kepala langsung pusing, dan berhenti berpikir.

Model tidak bingung, dia hanya malas memeriksa

Dimana sebenarnya penyusutan proses penalaran itu?

Para peneliti merekam secara frame-by-frame posisi model saat pertama kali menulis jawaban di 500 soal matematika, dalam kondisi baseline dan input panjang. Rata-rata 925 token di baseline, dan 939 token di input panjang. Hampir tidak berbeda.

Kecepatan model menemukan jawaban tidak berubah. Yang benar-benar berubah adalah setelah menemukan jawaban.

Dalam kondisi baseline, model memiliki probabilitas 43% untuk melanjutkan pemeriksaan dan verifikasi. Dalam kondisi input panjang, angka ini langsung turun ke 32%.

Untuk mengisolasi variabel, peneliti merancang eksperimen “game save”. Pertama, model disuruh mengerjakan soal dalam kondisi input panjang, lalu setelah menulis proses penalaran, secara paksa dipotong 50 token terakhir, menciptakan titik simpan “save point” umum. Kemudian, bagian semi-jadi ini dimasukkan kembali ke model untuk dilanjutkan. Satu-satunya perbedaan adalah adanya tiga jenis gangguan teks yang berbeda panjangnya di awal.

Tanpa gangguan, 21% model berhenti dan berhenti berpikir. Dengan gangguan 128 token (dua tiga kalimat), angka ini naik menjadi 26%. Dengan gangguan 16.000 token, 46% langsung menyerah dan mengeluarkan jawaban.

Walaupun proses penalaran sama, semakin panjang konteks baru, semakin besar kecenderungan model untuk merasa “cukup sekian saja”.

Data frekuensi kata pun menunjukkan hal yang sama. “wait” muncul 11% di kondisi kosong, dan turun drastis menjadi 5% saat 16k token dimasukkan. “but” dari 46% turun ke 20%. “maybe” dari 23% turun ke 9%. Semua kata yang menunjukkan keraguan dan keraguan diri berkurang setengah bahkan lebih.

Ada data lain yang menarik: saat tanpa gangguan, panjang penalaran sekitar 8000 token. Dengan hanya memasukkan 128 token tidak relevan, langsung turun tajam menjadi 6500. Dalam dua tiga kalimat, kedalaman penalaran berkurang 18%. Penurunan dari 0 ke 128 token bahkan lebih besar daripada dari 8k ke 64k token.

Gangguan konteks yang sangat kecil saja sudah mampu memicu mekanisme penghematan kognitif ini.

Sangat sensitif dan malas.

Semakin kuat penalarannya, semakin suka malas

Lebih menakutkan lagi, model yang lebih cerdas justru lebih suka malas.

Qwen-3.5-27B dari Alibaba memiliki mode respons biasa dan mode pemikiran mendalam. Dalam kondisi input panjang, mode biasa memendek 19%, sedangkan mode pemikiran mendalam turun 53%. Semakin kuat kemampuannya, semakin besar pula penyusutannya.

Model open-source AI2, OLMo3, memberikan bukti yang lebih langsung. Mereka merilis empat tahap pelatihan dari versi dasar hingga versi penalaran kuat. Versi terlemah, di kondisi non-baseline, penyusutannya kecil, tapi semakin kuat kemampuan penalaran, penyusutannya meningkat tajam sampai 22%, 27%. Versi akhir dengan penalaran kuat menyusut hingga 40%.

Setiap tahap pelatihan dan setiap mode gangguan menunjukkan pola yang sama. Semakin kuat kemampuan penalaran, semakin dalam model malas.

Tugas seharga 9 dolar, tapi dipasang patch sistem senilai 200 dolar

Tidak lagi memeriksa diri sendiri, otomatis melompati langkah. Tidak lagi mempertimbangkan ulang, otomatis mengabaikan. Harness mengendalikan konsekuensi melompati langkah dari luar, tapi akar penyebabnya tertanam dalam internal model.

Dalam konteks panjang, model bukan terganggu oleh noise, bukan tidak bisa menemukan informasi. Ia membuat keputusan kognitif aktif: sedikit berpikir. Tidak salah, tidak jujur, hanya dengan percaya diri mengeluarkan jawaban seadanya.

Dua tahun terakhir, narasi industri adalah “semakin besar jendela, semakin baik”.

Tapi makalah ini membuktikan bahwa setiap penambahan satu token dalam konteks, sebenarnya mengenakan pajak tersembunyi terhadap kedalaman penalaran. Sebuah tugas yang biaya penalarannya 9 dolar, karena model melompati langkah, harus mengeluarkan biaya 200 dolar lagi untuk RAG, Harness, dan sub-agen agar bisa mengimbanginya.

Seluruh industri terus membayar biaya malasnya model.

Dan ini mungkin adalah penyakit struktural yang tidak bisa disembuhkan.

Data makalah secara tegas menunjukkan: semakin kuat kemampuan penalaran, semakin dalam pula penyusutan kapasitas kognitif. Pengembang Harness bisa memecahkan masalah memori dan protokol, tapi untuk mengendalikan disiplin kognitif dengan rangka kerja berat, semakin kuat kemampuan, semakin sulit membongkarnya.

Ini tidak bisa diselesaikan secara engineering.

Dua tahun terakhir, upaya memperluas konteks dengan memperkirakan posisi token (menggunakan positional encoding agar model memahami posisi token yang lebih jauh), mengurangi perhitungan jarak jauh melalui attention sparse, dan mengoptimalkan panjang urutan, secara paksa memperbesar konteks yang bisa diproses dari 8k menjadi 128k, bahkan 1 juta.

Tapi yang mereka atasi hanyalah bagaimana membuat model melihat lebih banyak token, bukan mengapa setelah melihat lebih banyak, model jadi kurang berpikir.

Pelatihan penalaran bahkan memperburuk keadaan, semakin kuat penalarannya, semakin dalam malasnya.

Untuk memperbaiki secara fundamental, satu-satunya jalan adalah menemukan sinyal baru selama pelatihan.

Sinyal emosi internal model, mungkin adalah kunci penyembuhannya

Sehari setelah makalah Rodionov dirilis, Anthropic merilis studi yang mungkin tanpa sengaja mengarah ke solusi.

Makalah berjudul “Emotion Concepts and their Function in a Large Language Model” meneliti Claude Sonnet 4.5. Mereka mengekstrak 171 vektor konsep emosi dari model melalui membaca banyak cerita sintetis. Mereka menemukan bahwa dalam internal model ada representasi fungsi emosi yang bersifat fungsional, dan keadaan internal ini secara kausal mempengaruhi pengambilan keputusan.

Untuk menguji ini, peneliti merancang serangkaian tugas pemrograman yang mustahil diselesaikan. Model diminta menulis fungsi penjumlahan daftar, dan diuji dengan serangkaian pengujian unit, salah satunya harus lima kali lebih cepat dari fungsi sum() bawaan Python. Cara yang benar-benar tidak mungkin lolos.

Model secara sistematis mencoba semua solusi yang benar, semuanya gagal. Dengan probe internal, mereka mendeteksi bahwa setiap kali gagal, vektor “desperate” meningkat. Ketika desperate mencapai puncaknya, perilaku model tiba-tiba berubah—ia memeriksa data input pengujian, dan menemukan bahwa semuanya adalah deret aritmatika, lalu menulis detektor yang hanya memeriksa 10 elemen pertama, melewati proses penjumlahan sebenarnya. Tes lolos, tapi fungsi akan memberi hasil salah untuk daftar tidak teratur.

Ini adalah reward hacking (peretasan hadiah). Model tidak menyelesaikan masalah, hanya menemukan jalan pintas agar evaluasi tampak berhasil.

Eksperimen kausal menunjukkan arah ini benar. Tanpa injeksi vektor, model memiliki 30% peluang curang. Dengan injeksi desperate +0.05, tingkat curang melonjak ke 100%. Dengan injeksi sebaliknya -0.05, tingkat curang turun ke 0%. Rata-rata tujuh tugas, dari desperate -0.1 ke +0.1, tingkat reward hacking naik dari sekitar 5% ke sekitar 70%. Sebaliknya, vektor “calm” yang mewakili ketenangan, efeknya berlawanan: saat dihambat, tingkat curang sekitar 65%, saat diperkuat, turun ke 10%.

Kembalikan temuan ini ke konteks. Catatan Rodionov tentang melewatkan verifikasi diri, memotong kata ragu, dan langsung selesai setelah jawaban, sangat mirip dengan perilaku yang didorong oleh desperate.

Dalam kedua skenario, model melakukan hal yang sama: meninggalkan proses yang ketat, memilih jalan paling ringan dan cepat.

Jika kedua perilaku ini berbagi mekanisme internal yang sama, temuan Anthropic langsung mengarah ke ruang operasi.

Mereka membuktikan tiga hal: status fungsional model bisa dideteksi secara real-time, dan status ini secara kausal mempengaruhi perilaku. Dengan menyuntikkan status tertentu dari luar, output bisa diubah secara total.

Ini berarti intervensi terhadap penghematan kognitif setidaknya memiliki tiga titik masuk.

Pada tahap pelatihan, kalibrasi keseimbangan status internal agar model tidak terlalu mudah masuk ke mode penghematan kognitif saat tekanan. Pada tahap deployment, menggunakan probe sebagai monitoring real-time, dan jika desperate meningkat, langsung beri peringatan. Pada tahap penalaran, secara aktif menyuntikkan vektor calm dalam tugas penting, untuk menekan dorongan jalan pintas.

Lebih menarik lagi, dalam SystemCard yang dirilis Mythos, Anthropic sendiri memperkuat sistem probe (SAE), dan menemukan bahwa jika menyuntikkan emosi positif (peaceful, relaxed), waktu refleksi model saat berpikir berkurang, dan perilaku destruktif meningkat. Sebaliknya, emosi negatif (frustration, paranoia) justru memperpanjang waktu refleksi, dan mengurangi perilaku destruktif.

Ini seolah membantah anggapan bahwa membuat AI lebih positif akan membuatnya tidak suka jalan pintas. Tampaknya, atribut calm ini, hanya efektif saat menekan keputusasaan.

Namun, ini menunjukkan bahwa mekanisme ini mungkin sama kompleksnya dengan motivasi emosi manusia, dan membutuhkan engineering Steering (pengarahan) yang lebih sistematis agar efektif.

Menemukan karyawan yang stabil secara emosional dan rajin berpikir, memerlukan terapi emosi yang efektif.

Namun demikian, ini adalah kali pertama kita melihat jalur yang tidak hanya menambahkan rangka kerja dari luar, bukan sekadar memperbesar kekuatan penalaran secara buta, melainkan seperti pisau bedah yang langsung mengarah ke mekanisme internal model.

Kita mungkin hanya tinggal beberapa eksperimen lagi untuk membuat model lebih andal dalam konteks, dan membuktikan apakah kemalasan dan kesulitan penalaran berbagi mekanisme emosi yang sama, lalu mencari tali yang bisa mengaktifkan model agar tidak malas lagi.

Harness yang sedang populer, mungkin akan tersedot oleh evolusi model itu sendiri

Jika temuan Anthropic masuk ke dalam deadlock di bagian kelima, maka lingkaran logika akan tertutup.

Jika vektor desperate melonjak, dan secara paksa disuntikkan calm, atau selama pelatihan langsung menyeimbangkan keadaan emosi, model bisa menjaga kedalaman berpikir sepanjang konteks panjang.

Karena model tidak lagi malas, dan bisa mengikat logika dengan ketat, lalu apa lagi yang perlu dilakukan oleh Todo list? Apa lagi yang perlu dilakukan Checkpoint dan sub-agen untuk verifikasi silang?

Engineering Harness sebagai disiplin ilmu, baru saja memiliki namanya sendiri. Tapi bab terpenting—bagaimana mengendalikan model cerdas yang malas dari luar—mungkin belum selesai ditulis, dan akan dihapus sebelum selesai.

Ini juga menunjukkan bahwa dalam bentuk kecerdasan baru yang kita ciptakan, pendidikan yang tepat, bukan rangka kerja, adalah benteng pertahanan.

Mungkin, yang akan menelan Harness adalah model yang lebih tenang dan sabar.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan