Berdasarkan pemantauan 1M AI News, peneliti dari Stanford, MIT, dan perusahaan game Korea KRAFTON merilis Meta-Harness, sebuah rangka kerja eksekusi yang memungkinkan AI secara otomatis mengoptimalkan eksekusi (harness, yaitu kerangka penjagaan yang membungkus model dan menyediakan scaffolding untuk menggerakkan aksi Agent, meliputi desain prompt, pemanggilan alat, dan manajemen konteks). Berbeda dari framework eksekusi yang ditulis secara manual, Meta-Harness membuat sebuah coding Agent membaca kode, log eksekusi, dan penilaian dari rangka kerja kandidat terdahulu, lalu melakukan iterasi dan optimasi secara otomatis.
Pada benchmark operasi terminal TerminalBench-2, Meta-Harness meningkatkan tingkat kelulusan Claude Haiku 4.5 menjadi 37,6%, melampaui Goose (35,5%) dan Claude Code (27,5%), serta menempati peringkat pertama di antara semua framework eksekusi Haiku 4.5 yang telah dilaporkan. Pada Claude Opus 4.6, tingkat kelulusannya 76,4%, dan menempati peringkat kedua.
Penanggung jawab teknologi Qianwen (Tongyi Qianwen) Lin Junyang membagikan postingan penulis makalah tersebut dan berkomentar: “‘Model + framework eksekusi’ sudah melampaui ‘hanya melihat model’.” Kinerja Agent akan dipengaruhi secara signifikan oleh desain dan kualitas framework, “Saya benar-benar percaya ini adalah arah yang tepat.” Dalam artikel panjang yang dipublikasikan Lin Junyang pada 27 Maret (saat ini sudah dihapus), ia juga telah memprediksi bahwa desain lingkungan akan berubah dari proyek sampingan menjadi kategori produk startup yang sesungguhnya. Meta-Harness membuktikan penilaian tersebut dengan data eksperimen: dengan model yang sama, mengganti satu set framework eksekusi yang telah dioptimasi AI dapat menghasilkan selisih performa hingga 10 poin persentase.