OpenAI dan Paradigm membangun EVMbench dari 120 kerentanan audit nyata.
Pengujian benchmark menguji AI dalam mode deteksi, perbaikan, dan eksploitasi menggunakan lingkungan sandbox EVM.
GPT-5.3-Codex mendapatkan skor 72,2% dalam mode eksploitasi, mengungguli hasil GPT-5 sebelumnya.
OpenAI, bekerja sama dengan Paradigm, mengungkapkan sebuah tolok ukur baru untuk menguji kinerja AI dalam keamanan kontrak pintar Ethereum. Rilis ini, yang diumumkan minggu ini, memperkenalkan EVMbench sebagai cara untuk mengukur bagaimana agen AI mendeteksi, memperbaiki, dan mengeksploitasi kelemahan kontrak. Upaya ini menargetkan risiko yang meningkat, karena kontrak pintar mengamankan lebih dari $100 miliar aset kripto di jaringan EVM.
Menurut OpenAI, EVMbench diambil dari 120 kerentanan tingkat tinggi yang diidentifikasi dari 40 audit kontrak pintar profesional. Terutama, banyak dari masalah ini berasal dari kompetisi audit terbuka, termasuk Code4rena. Tolok ukur ini fokus pada bug nyata daripada contoh sintetis.
Selain itu, OpenAI mengatakan dataset ini mencakup skenario terkait pekerjaan keamanan di rantai Tempo. Tempo beroperasi sebagai jaringan Layer-1 yang berfokus pada pembayaran yang dibangun untuk transfer stablecoin. Karena itu, kasus-kasus ini memperkenalkan risiko logika pembayaran ke dalam lingkungan tolok ukur.
Untuk mendukung pengujian yang realistis, insinyur menggunakan kembali skrip bukti konsep eksploitasi yang tersedia. Namun, mereka secara manual membangun komponen yang hilang ketika dokumentasi terbukti tidak lengkap. OpenAI mengatakan mereka mempertahankan kemampuan eksploitasi sambil memastikan perbaikan dapat dikompilasi dengan benar.
EVMbench mengevaluasi agen dalam mode deteksi, perbaikan, dan eksploitasi. Dalam mode deteksi, agen memindai repositori dan menerima skor berdasarkan tingkat keberhasilan deteksi kerentanan. Dalam mode perbaikan, agen harus memperbaiki kelemahan sambil mempertahankan perilaku kontrak asli.
Mode eksploitasi, bagaimanapun, mensimulasikan serangan penuh yang menguras dana dalam blockchain sandbox. OpenAI mengatakan penilai mengonfirmasi hasil melalui pemutaran ulang transaksi dan pemeriksaan status di blockchain. Untuk memastikan konsistensi, perusahaan membangun alat pengujian berbasis Rust untuk penyebaran deterministik.
Pengujian eksploitasi dijalankan di lingkungan Anvil lokal, bukan jaringan langsung. OpenAI mencatat bahwa semua kerentanan bersifat historis dan telah dipublikasikan. Selain itu, alat pengujian membatasi panggilan RPC yang tidak aman untuk mengurangi penyalahgunaan.
Dalam hasil yang dilaporkan, GPT-5.3-Codex mencapai skor 72,2% dalam mode eksploitasi. Sebagai perbandingan, GPT-5 mencapai 31,9%, meskipun diluncurkan beberapa bulan sebelumnya. Namun, OpenAI mengatakan bahwa cakupan deteksi dan perbaikan masih belum lengkap.
Selain EVMbench, OpenAI mengonfirmasi perekrutan kunci. Peter Steinberger, pendiri OpenClaw, bergabung dengan perusahaan untuk bekerja pada pengembangan agen. Sam Altman mengonfirmasi langkah ini di X, menyebutkan bahwa Steinberger akan memimpin proyek agen pribadi generasi berikutnya.
Artikel Terkait
Coin Center Mendesak SEC Menetapkan Aturan Kripto Terpadu, Menentang Mekanisme Pengecualian Kasus per Kasus
Bitwise membeli 142 juta dolar ETH minggu lalu, total kepemilikan melampaui 10,7 miliar USD
Ketua SEC Paul Atkins Mengusulkan Kerangka Kerja Safe Harbor Kriptografi, Bertujuan Memberikan Pengecualian Regulasi untuk Penerbitan Token
Arus masuk bersih total ETF spot Ethereum kemarin adalah @1.3828@ juta dolar, dengan BlackRock ETHA di posisi teratas
Citigroup Menurunkan Target Harga BTC dan ETH 12 Bulan ke Depan menjadi $112.000 dan $3.175
Gate Card Pengembalian Dana Tertinggi 5% Menulis Ulang Aturan Pembayaran Kripto, Hadiah Berjenjang Menguntungkan Pengguna Global