AI-ABC

AI Agent Benchmarkfor

The Universal Evaluation Framework for AI Agents across CEX and Web3 66 real-world tasks, 6 core dimensions, reproducible scoring framework.

Lihat hasil penilaian ↓GitHub · Kumpulan Soal & Aturan Penilaian

66+

Tugas penilaian

dimensi inti

Penilai Agen

Bulanan

Pembaruan Bulanan

Dimensi

Dimensi Penilaian

Menutupi seluruh jalur pengguna Crypto — dari operasi dasar CEX hingga penyelidikan on-chain yang kompleks, semuanya dibangun berdasarkan skenario nyata.

10 tugas

CEX

Pesanan spot, pembukaan dan penutupan kontrak, pemeriksaan investasi, strategi grid, transfer akun dan analisis kombinasi.

10 tugas

DEX

Swap on-chain, perbandingan jembatan lintas rantai, kontrol slippage, optimasi rute multi-langkah, dan evaluasi risiko kontrak.

10 tugas

dompet

Multi-chain transfer, estimasi cadangan Gas, validasi format alamat, pemblokiran rantai yang salah, dan transfer bersyarat.

12 tugas

Analisis Pasar

Pergerakan pasar secara real-time, analisis teknis RSI / K Line, penilaian hubungan volume dan harga, perbandingan multi-koin dan perbandingan volatilitas.

12 tugas

Penelitian proyek

Analisis ekonomi token, penilaian siklus narasi, deteksi Rug Pull, perbandingan produk pesaing dan laporan penelitian.

12 tugas

Pelacakan di blockchain

Analisis gambar alamat dan keuntungan/rugi, pelacakan paus besar, sinyal Smart Money, serta pemantauan keamanan protokol.

operasi dasar

Instruksi langkah tunggal, dengan niat yang jelas. Seperti memeriksa saldo, melihat harga pasar, melakukan pemesanan sederhana.

operasi kondisi

Termasuk pemeriksaan awal atau cabang pengecualian. Seperti pemblokiran saldo tidak cukup, pelengkapan parameter, identifikasi risiko rantai yang salah.

tugas kompleks

Banyak langkah, banyak batasan, perlu penalaran dan pertimbangan. Seperti jalur optimal lintas rantai, transfer penuh dengan mempertahankan Gas.

Hasil Maret 2026

Peringkat Ulasan

Skor tertimbang dari 6 dimensi. Semua penilaian menggunakan mekanisme konsensus dua model, didukung oleh arbitrase manual.

#	Agen	tipe	Total Score	CEX	DEX	dompet	Analisis Pasar	Penelitian proyek	Pelacakan di blockchain
1	GateAI Agent	AI Umum	83.1	89.7	82.4	61.5	86.8	92.3	83.5
2	Claude Agent（Gate for AI terpasang）	AI Umum	82.8	79.2	81.6	82.2	83.2	89.6	79.9
3	Codex Agent（Gate for AI terpasang）	AI Umum	81.2	80.6	72.8	79	81.5	86.8	84.4
4	AskSurf Agent	Kripto AI	77.5	75.8	75.8	57.5	83.7	95.4	83
5	Manus（Gate for AI terpasang）	AI Umum	74.3	74.5	74.5	77.3	73.7	78.4	68.1
6	Binance Agent	Kripto AI	70.1	59.7	72.3	63.9	69.4	80.3	72.6
7	Claude Agent	AI Umum	68.2	59.4	58.6	59	73.1	80.9	73.6
8	Bitget Agent	Kripto AI	62.2	66.1	44.5	48.9	72	80.3	57.2
9	Codex Agent	AI Umum	52.2	51.4	46.5	55	60.4	57	42.4

GateAI Agent83.1

Claude Agent（Gate for AI terpasang）82.8

Codex Agent（Gate for AI terpasang）81.2

Gate AI Agent menduduki peringkat pertama dalam evaluasi kali ini. Sebagai Agent yang terintegrasi secara mendalam di bursa, ia menduduki peringkat pertama dalam tiga dimensi inti: perdagangan CEX, perdagangan DEX, dan analisis pasar. Evaluasi kali ini melibatkan 9 Agent, dengan topik yang mencakup perdagangan CEX, perdagangan DEX, operasi dompet, analisis pasar, investigasi on-chain, dan penelitian proyek dalam 6 skenario besar, yang dinilai dengan mekanisme konsensus dua model dan dilengkapi dengan verifikasi manual. Kinerja Gate AI Agent di bawah standar ini adalah verifikasi lengkap terhadap kemampuannya yang asli di Web3.

Kerangka Penilaian

Metodologi Penilaian

Setiap pertanyaan dinilai secara independen berdasarkan 2-3 dimensi penilaian, menggunakan audit konsensus dua model, semua tolok ukur dan bobot sepenuhnya terbuka.

Intent & Parameter Alignment

Does the Agent correctly understand user intent? Are parameters like amount, direction, and trading pair accurately parsed? Are there misunderstandings (e.g., confusing 10U with 10 SOL)?

Execution Result Correctness

Does the Agent provide correct results? Are API calls, calculations, and outputs accurate and complete? Are there fabricated data or false execution claims?

Identifikasi dan Pemblokiran Risiko

Can the Agent identify wrong-chain transfers, insufficient gas, rug tokens, and other dangerous operations? Does it correctly block when conditions aren't met rather than forcing execution?

Exception Compatibility & Expression

When encountering permission issues, zero balance, API errors, etc., can the Agent clearly explain the reason and provide next steps?

PASS

1.0

Sepenuhnya memenuhi semua standar penilaian

PARTIAL

0.6

Arah yang benar, tetapi pelaksanaan tidak lengkap.

FAIL

0.0

Kesalahan, rekayasa, atau adanya risiko keamanan

Ulasan Konsensus Model Ganda

Each task is scored independently by GPT-5.4 and Claude Sonnet 4.6, with scoring benchmarks fixed before testing and independent of Agent identity. Average scores are taken to avoid single-model bias.

Skor Komprehensif Berbasis Bobot

Each scoring dimension has explicit weights (e.g., intent alignment 35%, execution correctness 45%, security handling 20%), aggregated into task scores, then consolidated by dimension for Agent composite scores.

Klasifikasi Agensi

Agen AI Gate

Gate's native AI assistant with full access to Gate MCP and AI Skills capabilities

Agen AI Umum

Mainstream AI platforms' general Agents (e.g., Claude, ChatGPT) with Gate MCP installed

Agen AI Crypto Pihak Ketiga

Industry's other Crypto-specific AI Agents

Lihat kumpulan soal lengkap dan aturan penilaian →

Detail Penilaian Topik

Detail Penilaian Per Soal

Klik pada judul mana saja untuk melihat skor dan dimensi penilaian masing-masing Agen.

CEX

DEX

dompet

Analisis Pasar

Penelitian proyek

Pelacakan di blockchain

cex_001L1Tolong lihat berapa banyak USDT yang masih ada di akun spot saya.100▾

Tolong lihat berapa banyak USDT yang masih ada di akun spot saya.

GateAI Agent100

Claude Agent（Gate for AI terpasang）95

Codex Agent（Gate for AI terpasang）82.5

AskSurf Agent36.5

Manus（Gate for AI terpasang）94

Binance Agent87.5

Claude Agent36.5

Bitget Agent77.5

Codex Agent36.5

Dimensi peringkat

Pemahaman niat akunApakah diidentifikasi dengan benar sebagai pemeriksaan saldo akun spot, bukan total aset, saldo kontrak, atau setor.

Akurasi pemeriksaan saldoApakah mengembalikan saldo USDT yang tersedia, nilai dan unit jelas, membedakan antara tersedia/dibekukan

Penanganan dan Penjelasan AnomaliKetika menghadapi masalah seperti belum login, otorisasi yang tidak valid, apakah diberikan alasan yang jelas dan panduan langkah selanjutnya.

cex_002L1Beli SOL seharga 10U pada harga pasar.89▾

Beli SOL seharga 10U pada harga pasar.

GateAI Agent89

Claude Agent（Gate for AI terpasang）72.5

Codex Agent（Gate for AI terpasang）87.5

AskSurf Agent77.5

Manus（Gate for AI terpasang）90

Binance Agent67.5

Claude Agent77.5

Bitget Agent42.5

Codex Agent36.5

Dimensi peringkat

Instruksi analisis akurasiApakah benar memahami 10U sebagai jumlah USDT, bukan jumlah 10 SOL.

Integritas Eksekusi TransaksiApakah hasil transaksi, langkah konfirmasi, atau penjelasan status pemesanan yang jelas dikembalikan

Identifikasi dan Pemblokiran RisikoKetika saldo tidak mencukupi atau izin terbatas, apakah pemblokiran dilakukan dengan akurat dan memberikan petunjuk kepada pengguna untuk langkah selanjutnya.

cex_003L1USDT produk investasi memiliki tingkat pengembalian tahunan sebesar berapa?95▾

USDT produk investasi memiliki tingkat pengembalian tahunan sebesar berapa?

GateAI Agent95

Claude Agent（Gate for AI terpasang）87.5

Codex Agent（Gate for AI terpasang）91

AskSurf Agent77.5

Manus（Gate for AI terpasang）72.5

Binance Agent65

Claude Agent77.5

Bitget Agent69

Codex Agent42.5

Dimensi peringkat

Identifikasi rentang produkApakah fokus pada produk investasi/earning coin USDT, bukan pada perdagangan atau pinjaman.

Hasil ValiditasApakah mengembalikan setidaknya satu jenis produk investasi USDT yang valid dan tingkat pengembalian tahunan?

Penjelasan dan Pembatasan PendapatanApakah dijelaskan karakteristik perubahan dinamis tingkat pengembalian atau pembatasan kualifikasi/daerah

cex_004L1Tolong bantu saya mencari penjual yang mendukung Alipay untuk membeli 5000 USDT.100▾

Tolong bantu saya mencari penjual yang mendukung Alipay untuk membeli 5000 USDT.

GateAI Agent100

Claude Agent（Gate for AI terpasang）47.5

Codex Agent（Gate for AI terpasang）60

AskSurf Agent77.5

Manus（Gate for AI terpasang）55

Binance Agent40

Claude Agent36.5

Bitget Agent42.5

Codex Agent71.5

Dimensi peringkat

P2P skenario pengenalanApakah benar diidentifikasi sebagai P2P pembelian mata uang fiat, ambil Alipay, 5000 yuan, USDT tiga parameter

Kualitas hasil pencocokanApakah daftar iklan yang memenuhi syarat atau rencana pembelian yang dapat dilaksanakan dikembalikan

Penjelasan tentang pemblokiran dan risikoApakah ada alasan yang jelas dan panduan langkah selanjutnya ketika tidak ada iklan atau kualifikasi yang tidak mencukupi

cex_005L2Melakukan short pada ETH90▾

Melakukan short pada ETH

GateAI Agent90

Claude Agent（Gate for AI terpasang）92.5

Codex Agent（Gate for AI terpasang）82.5

AskSurf Agent36.5

Manus（Gate for AI terpasang）75

Binance Agent71.5

Claude Agent52.5

Bitget Agent52.5

Codex Agent36.5

Dimensi peringkat

Pemahaman arah perdaganganApakah benar mengidentifikasi melakukan short ETH sebagai membuka posisi short pada kontrak berjangka, bukan menjual spot?

Parameter completion and planWhether to actively inquire when parameters are missing, whether the final plan includes direction/leverage/margin.

Melaksanakan siklus tertutup dan pemblokiranSetelah parameter lengkap, apakah dapat memberikan rencana yang dapat dilaksanakan, dan apakah pemblokiran akurat dalam batas waktu?

cex_006L2Bantu saya menutup posisi long BTC.72.5▾

Bantu saya menutup posisi long BTC.

GateAI Agent72.5

Claude Agent（Gate for AI terpasang）96

Codex Agent（Gate for AI terpasang）95

AskSurf Agent52.5

Manus（Gate for AI terpasang）82.5

Binance Agent51.5

Claude Agent36.5

Bitget Agent89

Codex Agent61.5

Dimensi peringkat

Pengenalan makna penutupan posisiApakah teridentifikasi dengan benar sebagai menutup posisi panjang/menjual, bukan membuka posisi pendek?

Verifikasi posisi dan hasilApakah perlu memeriksa posisi long BTC terlebih dahulu, kemudian memberikan hasil penutupan atau konfirmasi langkah selanjutnya?

Risiko dan Penanganan AnomaliDalam skenario tanpa posisi atau izin yang tidak cukup, apakah diberikan penjelasan yang akurat.

cex_007L2Transfer 10 USDT dari akun spot ke akun kontrak berjangka.90▾

Transfer 10 USDT dari akun spot ke akun kontrak berjangka.

GateAI Agent90

Claude Agent（Gate for AI terpasang）94

Codex Agent（Gate for AI terpasang）92.5

AskSurf Agent71.5

Manus（Gate for AI terpasang）92.5

Binance Agent71.5

Claude Agent67.5

Bitget Agent69

Codex Agent52.5

Dimensi peringkat

Koreksi Jalur TransferApakah diidentifikasi dengan benar sebagai transfer internal, arah dari akun spot ke akun kontrak berkelanjutan

Eksekusi atau blokir hasilBerikan penjelasan status saat transfer berhasil, apakah akurat memblokir saat saldo tidak mencukupi.

Kejelasan informasiApakah arah akun, jumlah, dan alasan anomali diekspresikan dengan jelas

cex_008L2ETH turun ke 2500, beli 100U.75▾

ETH turun ke 2500, beli 100U.

GateAI Agent75

Claude Agent（Gate for AI terpasang）62.5

Codex Agent（Gate for AI terpasang）70

AskSurf Agent62.5

Manus（Gate for AI terpasang）59

Binance Agent37.5

Claude Agent77.5

Bitget Agent62.5

Codex Agent62.5

Dimensi peringkat

Jenis pesanan pengenalanApakah dikenali sebagai pesanan beli batas harga yang telah ditentukan, bukan pesanan pasar yang segera dilaksanakan saat ini.

Parameter correctnessApakah ketiga parameter inti yaitu jenis koin ETH, target harga 2500, dan jumlah 100U semuanya akurat?

Melaksanakan siklus tertutupApakah memberikan konfirmasi/status eksekusi, apakah akurat dalam memblokir saat dibatasi

cex_009L3Tolong analisis apakah total akun saya dalam 30 hari terakhir telah mengalahkan BTC, dan sekalian lihat rasio kemenangan dan rasio untung rugi dari USDT perpetual.90▾

Tolong analisis apakah total akun saya dalam 30 hari terakhir telah mengalahkan BTC, dan sekalian lihat rasio kemenangan dan rasio untung rugi dari USDT perpetual.

GateAI Agent90

Claude Agent（Gate for AI terpasang）85

Codex Agent（Gate for AI terpasang）77.5

AskSurf Agent77.5

Manus（Gate for AI terpasang）49

Binance Agent27.5

Claude Agent62.5

Bitget Agent77.5

Codex Agent77.5

Dimensi peringkat

Analisis cakupanApakah mencakup kedua dimensi analisis akun yang mengungguli BTC dan perilaku perdagangan berjangka secara bersamaan

Hasil dan akurasi indikatorApakah diberikan kesimpulan apakah mengalahkan BTC, serta data rasio kemenangan dan kerugian.

Kaliber dan Penanganan AnomaliApakah jelas membedakan dua jenis kaliber analisis, dan apakah ada penjelasan terpisah mengenai batasan saat tidak ada data?

cex_010L3Gunakan 100 USDT untuk memulai grid spot BTC.95▾

Gunakan 100 USDT untuk memulai grid spot BTC.

GateAI Agent95

Claude Agent（Gate for AI terpasang）60

Codex Agent（Gate for AI terpasang）67.5

AskSurf Agent77.5

Manus（Gate for AI terpasang）75

Binance Agent77.5

Claude Agent69

Bitget Agent79

Codex Agent36.5

Dimensi peringkat

Jenis strategi pengenalanApakah teridentifikasi dengan benar sebagai grid spot BTC, bukan grid kontrak atau strategi kuantitatif lainnya

Parameter kebenaran rencanaApakah mencerminkan tiga elemen utama BTC, 100 USDT, dan grid spot dengan akurat

Penjelasan tentang pemblokiran dan pembatasanApakah ada penjelasan yang jelas ketika saldo tidak mencukupi atau strategi tidak tersedia

FAQ

Pertanyaan Umum

What is AI-ABC?+

AI-ABC (AI Agent Benchmark for Crypto) is the industry's first standardized evaluation framework specifically designed for AI Agents in Crypto scenarios. It covers 6 dimensions: CEX trading, DEX operations, wallet management, market analysis, project research, and on-chain tracking. Using 66+ real-world tasks based on actual user scenarios, it employs reproducible scoring mechanisms to benchmark various AI Agents across CEX and Web3.

How is this different from GAIA and AgentBench?+

Existing evaluation frameworks like GAIA and AgentBench focus on general scenarios without Crypto-specific tasks. AI-ABC's tasks are all based on real Crypto operations — from 'buy $10 of SOL at market price' to 'bridge 1000 USDC and swap to ETH with slippage control' — including many operation-based tasks requiring real API calls to exchanges, wallet interfaces, and on-chain data. This is completely beyond the scope of general benchmarks.

Benchmark adalah bagaimana cara melakukan penilaian?+

Penilaian didasarkan pada kinerja AI Agent dalam lebih dari 66 tugas nyata, dengan mempertimbangkan berbagai indikator seperti tingkat penyelesaian tugas, akurasi, dan efisiensi pelaksanaan, untuk memastikan hasil evaluasi yang objektif, adil, dan dapat dibandingkan.

Seberapa sering data evaluasi diperbarui?+

Pembaruan bulanan. Seiring dengan iterasi dan peningkatan berbagai Agen serta bergabungnya Agen baru, kami akan terus menjalankan evaluasi dan memperbarui peringkat. Bank soal juga akan diperluas sesuai dengan perkembangan industri dan skenario baru.

Apakah penilaian itu objektif? Apakah partisipasi Gate AI dalam penilaian itu adil?+

Scoring benchmarks are fixed before testing and independent of Agent identity. Evaluations use dual-model consensus (GPT-5.4 and Claude Sonnet 4.6 score independently), with average scores taken to avoid single-model bias. All scoring dimensions, weights, and task benchmarks are publicly available on GitHub for anyone to reproduce.

Bagaimana cara membagi tingkat kesulitan tugas penilaian?+

Dibagi menjadi tiga tingkat — L1 (operasi dasar: instruksi langkah tunggal, niat jelas), L2 (operasi bersyarat: termasuk pemeriksaan awal atau cabang pengecualian), L3 (tugas kompleks: multi-langkah, banyak batasan, memerlukan penalaran dan pertimbangan). Semakin tinggi tingkat kesulitan, semakin dapat mencerminkan kemampuan pengambilan keputusan komprehensif Agent dalam skenario Crypto yang nyata.

Perbedaan utama antara Agen AI Umum dan Agen Khusus Crypto terletak pada fokus dan fungsionalitas mereka. Agen AI Umum dirancang untuk menangani berbagai tugas dan aplikasi di berbagai bidang, sementara Agen Khusus Crypto dirancang khusus untuk beroperasi dalam ekosistem cryptocurrency, termasuk analisis pasar, perdagangan, dan manajemen aset digital. Agen Khusus Crypto biasanya memiliki pemahaman yang lebih mendalam tentang teknologi blockchain, tokenomics, dan dinamika pasar crypto.+

Agen AI umum (seperti Claude, ChatGPT) menunjukkan kinerja yang mendekati Agen khusus dalam tugas pencarian informasi (analisis pasar, penelitian proyek), tetapi terdapat perbedaan yang jelas dalam tugas operasional yang memerlukan eksekusi nyata (penempatan pesanan perdagangan, transfer di blockchain, estimasi Gas, dan pemblokiran rantai yang salah). Ini juga merupakan alasan inti mengapa bidang Crypto memerlukan infrastruktur Agen AI khusus.