Kerangka kerja otomatis AI untuk optimalisasi eksekusi membuat Haiku 4.5 Terminal meraih peringkat pertama: Lin Junyang menyebut ini adalah perubahan "desain lingkungan" yang dia prediksi

BlockBeatNews

Berdasarkan pemantauan 1M AI News, peneliti dari Stanford, MIT, dan perusahaan game Korea KRAFTON merilis Meta-Harness, sebuah rangka kerja eksekusi yang memungkinkan AI secara otomatis mengoptimalkan eksekusi (harness, yaitu kerangka penjagaan yang membungkus model dan menyediakan scaffolding untuk menggerakkan aksi Agent, meliputi desain prompt, pemanggilan alat, dan manajemen konteks). Berbeda dari framework eksekusi yang ditulis secara manual, Meta-Harness membuat sebuah coding Agent membaca kode, log eksekusi, dan penilaian dari rangka kerja kandidat terdahulu, lalu melakukan iterasi dan optimasi secara otomatis.

Pada benchmark operasi terminal TerminalBench-2, Meta-Harness meningkatkan tingkat kelulusan Claude Haiku 4.5 menjadi 37,6%, melampaui Goose (35,5%) dan Claude Code (27,5%), serta menempati peringkat pertama di antara semua framework eksekusi Haiku 4.5 yang telah dilaporkan. Pada Claude Opus 4.6, tingkat kelulusannya 76,4%, dan menempati peringkat kedua.

Penanggung jawab teknologi Qianwen (Tongyi Qianwen) Lin Junyang membagikan postingan penulis makalah tersebut dan berkomentar: “‘Model + framework eksekusi’ sudah melampaui ‘hanya melihat model’.” Kinerja Agent akan dipengaruhi secara signifikan oleh desain dan kualitas framework, “Saya benar-benar percaya ini adalah arah yang tepat.” Dalam artikel panjang yang dipublikasikan Lin Junyang pada 27 Maret (saat ini sudah dihapus), ia juga telah memprediksi bahwa desain lingkungan akan berubah dari proyek sampingan menjadi kategori produk startup yang sesungguhnya. Meta-Harness membuktikan penilaian tersebut dengan data eksperimen: dengan model yang sama, mengganti satu set framework eksekusi yang telah dioptimasi AI dapat menghasilkan selisih performa hingga 10 poin persentase.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar