Der ChatGPT-Hersteller OpenAI und die auf Kryptowährungen fokussierte Investmentfirma Paradigm haben EVMbench vorgestellt, ein Tool zur Verbesserung der Sicherheit von Ethereum Virtual Machine (EVM)-Smart-Contracts.
EVMbench ist entwickelt worden, um die Fähigkeit von KI-Agenten zu bewerten, hochgradige Schwachstellen in EVM-Smart-Contracts zu erkennen, zu beheben und auszunutzen.
Smart Contracts sind das Herzstück des Ethereum-Netzwerks und enthalten den Code, der alles von dezentralen Finanzprotokollen bis hin zu Token-Starts antreibt. Laut Token Terminal erreichte die wöchentliche Anzahl der auf Ethereum bereitgestellten Smart Contracts im November 2025 einen Rekordwert von 1,7 Millionen, wobei allein in der letzten Woche 669.500 Deployments stattfanden.
EVMbench basiert auf 120 ausgewählten Schwachstellen aus 40 Audits, die größtenteils aus offenen Audit-Wettbewerben wie Code4rena stammen, so ein Blogbeitrag von OpenAI. Es umfasst auch Szenarien aus dem Sicherheits-Audit-Prozess für Tempo, eine speziell für hohe Durchsatzraten und kostengünstige Stablecoin-Zahlungen entwickelte Layer-1-Blockchain von Stripe.
Stripe startete im Dezember das öffentliche Testnetz für Tempo und erklärte damals, dass es mit Input von Visa, Shopify und OpenAI entwickelt werde. Ziel sei es, Tests auf wirtschaftlich relevanten, realen Codebasis durchzuführen, insbesondere im Zuge der Expansion KI-gesteuerter Stablecoin-Zahlungen, so das Unternehmen.
Einführung von EVMbench – einem neuen Benchmark, der misst, wie gut KI-Agenten hochgradige Schwachstellen in Smart Contracts erkennen, ausnutzen und beheben können. https://t.co/op5zufgAGH
— OpenAI (@OpenAI) 18. Februar 2026
EVMbench soll KI-Modelle in drei Modi bewerten: Erkennen, Beheben und Ausnutzen. Im „Erkennen“-Modus prüfen Agenten Repositories auf bekannte Schwachstellen und werden anhand ihrer Trefferquote bewertet. Im „Beheben“-Modus müssen Agenten Schwachstellen eliminieren, ohne die beabsichtigte Funktionalität zu zerstören. Im letzten Schritt, dem „Ausnutzen“-Modus, versuchen die Agenten, End-to-End-Angriffe zum Abziehen von Geldern in einer sandboxed Blockchain-Umgebung durchzuführen, wobei die Bewertung durch deterministische Transaktionswiedergabe erfolgt.
Im Exploit-Modus erreichte GPT-5.3-Codex, das über OpenAI’s Codex CLI läuft, eine Punktzahl von 72,2 %, verglichen mit 31,9 % für GPT-5, das vor sechs Monaten veröffentlicht wurde. Die Leistung bei den Erkennungs- und Behebungsaufgaben war schwächer, da die Agenten manchmal nicht gründlich genug auditierten oder Schwierigkeiten hatten, die vollständige Funktionalität des Vertrags zu bewahren.
Die Forscher von OpenAI warnten, dass EVMbench die reale Sicherheitskomplexität nicht vollständig abbildet. Dennoch betonten sie, dass die Messung der KI-Leistung in wirtschaftlich relevanten Umgebungen entscheidend sei, da Modelle immer mächtigere Werkzeuge für Angreifer und Verteidiger werden.
Sam Altman von OpenAI und Ethereum-Mitbegründer Vitalik Buterin standen zuvor wegen des Tempos der KI-Entwicklung im Konflikt.
Im Januar 2025 sagte Altman, sein Unternehmen sei „zuversichtlich, dass wir wissen, wie man eine AGI baut, wie wir sie traditionell verstanden haben.“ Buterin plädierte hingegen dafür, dass KI-Systeme eine „weiche Pause“-Funktion enthalten sollten, die vorübergehend industrielle KI-Operationen einschränken kann, falls Warnzeichen auftreten.
Verwandte Artikel
BlackRock „Ether-Staking-ETF" macht großen Auftritt! Das Handelsvolumen am ersten Handelstag übersteigt 15,5 Millionen US-Dollar
BlackRock überwies 567 BTC und 22.657 ETH an eine bestimmte CEX, mit einem Gesamtwert von über 94 Millionen US-Dollar
Bitmine kauft 60.999 ETH, erhöht Treasury auf $11,5B
Südkoreanische Polizei plant Richtlinien zur Beschlagnahme von Privacy Coins, in den letzten fünf Jahren beschlagnahmte virtuelle Vermögenswerte im Wert von etwa 54,5 Milliarden Won