Pembuat ChatGPT, OpenAI, dan perusahaan investasi yang berfokus pada kripto, Paradigm, telah memperkenalkan EVMbench, sebuah alat untuk membantu meningkatkan keamanan kontrak pintar Ethereum Virtual Machine. EVMbench dirancang untuk mengevaluasi kemampuan agen AI dalam mendeteksi, memperbaiki, dan mengeksploitasi kerentanan tingkat tinggi dalam kontrak pintar Ethereum Virtual Machine (EVM). Kontrak pintar adalah inti dari jaringan Ethereum, menyimpan kode yang menjalankan segala sesuatu mulai dari protokol keuangan terdesentralisasi hingga peluncuran token. Jumlah kontrak pintar yang dideploy setiap minggu di Ethereum mencapai rekor tertinggi 1,7 juta pada November 2025, dengan 669.500 dideploy minggu lalu saja, menurut Token Terminal.
EVMbench mengacu pada 120 kerentanan yang dikurasi dari 40 audit, sebagian besar berasal dari kompetisi audit terbuka seperti Code4rena, menurut posting blog OpenAI. Alat ini juga mencakup skenario dari proses audit keamanan untuk Tempo, blockchain layer-1 yang dibangun khusus oleh Stripe yang fokus pada pembayaran stablecoin berkecepatan tinggi dan biaya rendah. Raksasa pembayaran Stripe meluncurkan testnet publik untuk Tempo pada Desember, dengan menyatakan bahwa pengembangan alat ini melibatkan masukan dari Visa, Shopify, dan OpenAI, di antara lainnya. Tujuannya adalah untuk mendasarkan pengujian pada kode dunia nyata yang bermakna secara ekonomi—terutama saat pembayaran stablecoin berbasis AI berkembang, tambah perusahaan tersebut.
Memperkenalkan EVMbench—benchmark baru yang mengukur seberapa baik agen AI dapat mendeteksi, mengeksploitasi, dan memperbaiki kerentanan kontrak pintar tingkat tinggi. https://t.co/op5zufgAGH
— OpenAI (@OpenAI) 18 Februari 2026
EVMbench dirancang untuk mengevaluasi model AI dalam tiga mode: Deteksi, perbaikan, dan eksploitasi. Dalam mode “deteksi,” agen mengaudit repositori dan dinilai berdasarkan kemampuan mereka mengingat kerentanan yang sebenarnya. Dalam mode “perbaikan,” agen harus menghilangkan kerentanan tanpa merusak fungsi yang dimaksudkan. Akhirnya, dalam fase “eksploitasi,” agen mencoba serangan pengurasan dana secara end-to-end di lingkungan blockchain yang dikarantina, dengan penilaian dilakukan melalui replay transaksi deterministik. Dalam mode eksploitasi, GPT-5.3-Codex yang dijalankan melalui OpenAI’s Codex CLI meraih skor 72,2%, dibandingkan 31,9% untuk GPT-5, yang dirilis enam bulan sebelumnya. Performa dalam tugas deteksi dan perbaikan lebih lemah, di mana agen kadang gagal melakukan audit secara menyeluruh atau kesulitan menjaga fungsi kontrak secara penuh. Para peneliti dari pembuat ChatGPT memperingatkan bahwa EVMbench tidak sepenuhnya menangkap kompleksitas keamanan dunia nyata. Meski begitu, mereka menambahkan bahwa mengukur kinerja AI dalam lingkungan yang relevan secara ekonomi sangat penting karena model menjadi alat yang kuat bagi penyerang maupun pembela. Sam Altman dari OpenAI dan co-founder Ethereum, Vitalik Buterin, sebelumnya pernah berselisih mengenai kecepatan pengembangan AI. Pada Januari 2025, Altman mengatakan bahwa perusahaannya “percaya bahwa kami tahu cara membangun AGI seperti yang kami pahami secara tradisional.” Namun, Buterin berpendapat bahwa sistem AI harus menyertakan kemampuan “penundaan lunak” yang dapat secara sementara membatasi operasi AI skala industri jika tanda-tanda peringatan muncul.
Artikel Terkait
Komisi Sekuritas dan Bursa AS (SEC) menyetujui opsi atas pendaftaran “ETF kripto multi-jenis mata uang” di NYSE American, alat lindung nilai Wall Street ditingkatkan lagi
BlackRock menarik sekitar 1450 BTC dan 1780 ETH dari sebuah CEX tertentu
ETH 15 menit melonjak 0,66%: perpanjangan jatuh tempo opsi (rollover) dan ETF yang terus mengalir masuk beresonansi untuk kenaikan
Kemarin, ETF Bitcoin Amerika mencatat arus masuk bersih sebesar 1752 BTC, ETF Ethereum Amerika mencatat arus masuk bersih sebesar 14488 ETH
Prediksi Harga Ethereum: Apa yang Harus Dilakukan ETH untuk Menembus Konsolidasi?