
OpenAI veröffentlichte GPT-5.3-Codex, das erste Modell, das “an der Selbsterschaffung beteiligt ist”, um eigenen Code zu debuggen, die Bereitstellung zu verwalten und Tests zu diagnostizieren. Karpathy bezeichnete die Überarbeitung als “am ehesten der KI-Startszene”.
OpenAIs offizieller Account wurde veröffentlicht: GPT-5.3-Codex ist offiziell gestartet und ist “der Erste, der an der Erstellung eines eigenen Modells beteiligt ist”. Was bedeutet das? Mit anderen Worten: Während des Entwicklungsprozesses half diese KI dabei, ihren eigenen Trainingscode zu debuggen, ihren eigenen Deployment-Prozess zu verwalten und ihre Testergebnisse zu diagnostizieren. In menschlichen Begriffen hat KI begonnen, KI zu erschaffen.
Andrej Karpathy, ein ehemaliger OpenAI-Forscher und Tesla-KI-Direktor, twitterte direkt nach der Lektüre: “Das ist das Nächstliegende, was ich je an einer KI-Startszene in der Science-Fiction gesehen habe.” Diese Einschätzung durch führende KI-Forscher ist gewichtig, da Karpathy persönlich mehrere Schlüsselphasen der KI-Entwicklung erlebt hat und sein Urteil auf einem tiefen technischen Verständnis basiert.
KI iteriert in sich selbst, das ist keine Marketingrhetorik. Laut der internen Offenlegung von OpenAI hat GPT-5.3-Codex während des Entwicklungsprozesses Folgendes getan: Tests analysiert, die keine Trainingsprotokolle markieren konnten, Korrekturen für Trainingsskripte und Profile vorgeschlagen, Bereitstellungsrezepte generiert und Anomalien für menschliche Überprüfung zusammengefasst und bewertet. Was bedeutet das? KI ist nicht mehr nur ein Werkzeug, sie beginnt, Teil des Entwicklungsteams zu werden, und es ist die Art, die sich selbst verbessern kann.
Diese Fähigkeit, an der Entwicklung teilzunehmen, durchsetzt die traditionelle KI-Positionierung. Früher wurden KI-Modelle vollständig von Menschen entworfen, trainiert und eingesetzt, und KI war ein passives Produkt. Nun hat GPT-5.3 bei seiner eigenen Entstehung eine aktive Rolle gespielt, und obwohl es noch unter menschlicher Aufsicht steht, hat dieser Rollenwechsel weitreichende Auswirkungen. Es deutet auf eine Möglichkeit hin: Zukünftige KI-Modelle könnten größtenteils von der KI selbst entworfen und optimiert werden, wobei Menschen nur die Richtung und die endgültige Überprüfung liefern.
Trainingsprotokolle analysieren: Fehlgeschlagene Tests während des Trainings automatisch markieren, um Anomalien zu identifizieren
Empfohlener Reparaturplan: Verbesserungen für Trainingsskripte und Profile vorschlagen
Erstellen Sie das Bereitstellungsrezept: Automatisierung des Bereitstellungsprozesses und Reduzierung manueller Abläufe
Zusammenfassungsanomalie: Komplexe Bewertungsergebnisse in menschenverständliche Berichte zu organisieren
Ein kürzlich vom MIT veröffentlichtes SEAL-Papier (arXiv:2506.10943) beschreibt eine KI-Architektur, die nach der Einführung kontinuierlich lernt und sich ohne Nachtraining weiterentwickelt. Bemerkenswert ist, dass einige SEAL-Forscher inzwischen OpenAI beigetreten sind. Das bedeutet, dass KI sich von einem “statischen Werkzeug” zu einem “dynamischen System” entwickelt hat, das Lernen nicht mehr bei der Einführung gestoppt wird und die Grenzen von Schlussfolgerung und Training verschwinden. GPT-5.3 könnte die erste kommerzielle Anwendung dieser neuen Architektur sein.
Am 5. Februar veröffentlichten OpenAI und Anthropic jeweils eine neue Generation von Modellen, nur 20 Minuten auseinander. Zuerst veröffentlichte Anthropic Claude Opus 4.6, und dann brachte OpenAI GPT-5.3-Codex heraus. Da OpenAI GPT-5.3-Codex nutzen will, um die neuen Modelle anderer Leute zu snipen, muss es eine gewisse Fähigkeit haben. Die Daten lügen nicht: GPT-5.3-Codex stellte bereits nach seiner Einführung neue Rekorde in mehreren Branchenbenchmarks auf.
Terminal-Bench 2.0 testet die operativen Fähigkeiten der KI in einer realen Terminalumgebung, kompiliert Code, trainiert Modelle und konfiguriert Server. GPT-5.3-Codex erzielte 77,3 %, GPT-5.2-Codex nur 64,0 % und Claude Opus 4.6 65,4 %. Das ist ein Anstieg von 13 Prozentpunkten zwischen den Generationen, was bereits ein großer Fortschritt im Bereich KI darstellt. Der Vergleich von 77,3 % gegenüber 65,4 % zeigt, dass GPT-5,3 einen erheblichen Vorteil bei realen technischen Aufgaben schafft.
SWE-Bench Pro ist ein Benchmark, der speziell entwickelt wurde, um reale Softwareentwicklungsfähigkeiten zu testen und vier Programmiersprachen abdeckt: Python, JavaScript, Go und Ruby. GPT-5.3-Codex erreichte 56,8 %, übertraf die 56,4 % seines Vorgängers, GPT-5.2-Codex, und behielt weiterhin seinen ersten Platz in der Branche. Noch wichtiger ist, dass OpenAI enthüllte, dass GPT-5.3-Codex die geringste Anzahl an Ausgabetoken aller Modelle verwendet, wenn es diesen Wert erreicht, was bedeutet, dass es nicht nur genau, sondern auch effizient ist.
OSWorld-Verified testet die Fähigkeit der KI, Produktivitätsaufgaben in einer Visual-Desktop-Umgebung zu erledigen, Tabellenkalkulationen zu bearbeiten, Präsentationen zu erstellen, an Dokumenten zu arbeiten und mehr. GPT-5.3-Codex erzielte 64,7 % im Vergleich zum menschlichen Durchschnitt von 72 %. Das bedeutet, dass es sich der Leistung gewöhnlicher Menschen bei Computeraufgaben nahegekommen hat und sich im Vergleich zu seinem Vorgänger fast verdoppelt hat. Diese nahezu menschliche Leistung macht KI erstmals wirklich in der Lage, Büroarbeit zu leisten, anstatt nur ein Hilfswerkzeug zu sein.
Noch bemerkenswerter ist, dass Claude Opus 4.6 erstmals im Opus-Level-Modell ein 100.000-Token-Kontextfenster (Beta) unterstützt, das den gesamten Code oder Hunderte von Seiten an Dokumenten gleichzeitig verarbeiten kann, und die Funktion Agent Teams eingeführt hat, bei der mehrere KI-Agenten gleichzeitig an Programmierung, Testen und Dokumenten zusammenarbeiten können.
Wenn OpenAI und Anthropic ihre Flaggschiffmodelle am selben Tag und zum gleichen Zeitpunkt veröffentlichen, ist dieser Wettbewerb nicht mehr nur ein technischer Wettbewerb, sondern ein Kampf um die zukünftige Form der KI: OpenAIs “Selbstentwicklungs”-Route oder Anthropics “Multi-Agenten-Kollaboration”-Route? Die Strategie von OpenAI ist es, eine einzelne KI leistungsfähiger zu machen und sich sogar selbst zu verbessern. Die Strategie von Anthropic ist es, mehreren KIs durch Arbeitsteilung und Zusammenarbeit die Zusammenarbeit bei komplexen Aufgaben zu ermöglichen.
Der Kontext der 100.000-Tokens ist ein technologischer Durchbruch. Das entspricht etwa 75 Millionen englischen Wörtern oder 300 chinesischen Zeichen, was ausreicht, um den gesamten Code eines mittelgroßen Softwareprojekts oder eine dicke technische Dokumentation zu decken. Diese Fähigkeit ermöglicht es Claude, das gesamte Projekt zu “sehen”, anstatt ein fragmentarisches Verständnis zu haben. Für die Architekturanalyse und Refaktorisierung groß angelegter Projekte ist dieser globale Blick entscheidend.
Agent Teams bringt das Konzept der Zusammenarbeit in die KI ein. Ein Agent schreibt Code, ein anderer testet und ein dritter schreibt Dokumentation, und sie können miteinander kommunizieren und koordinieren. Dieses Muster ahmt die Arbeitsweise menschlicher Softwareteams nach und ist möglicherweise für bestimmte Szenarien besser geeignet als eine einzelne Super-KI. Allerdings bringt die Zusammenarbeit zwischen mehreren Agenten auch neue Komplexitäten mit sich: wie man koordiniert, wie man Konflikte vermeidet und wie man Konsistenz sicherstellt.
Beide Wege haben ihre Vor- und Nachteile. Der Weg der Selbstentwicklung von OpenAI ist aggressiver, und wenn er erfolgreich ist, könnte er zu exponentiellen Verbesserungen der Fähigkeiten führen, aber auch außer Kontrolle geraten. Anthropics Multi-Agenten-Route ist konservativer und reduziert Single Point of Risk durch Spreading-Fähigkeiten, aber Koordinationskosten können die Effizienz einschränken. Da KI sich in freier Wildbahn weiterentwickelt, werden sich die Fragen zur Governance von “Wie intelligent ist es” zu “Wie managen wir ein System managen, das sich ständig verändert?” verschieben. Und wenn zwei führende KI-Unternehmen innerhalb von 20 Minuten hintereinander bahnbrechende Modelle veröffentlichen, schrumpft das Zeitfenster für menschliches Denken und Vorbereitung mit einer Geschwindigkeit, die mit bloßem Auge sichtbar ist.
Verwandte Artikel
Wenn der US-Dollar um 10% fällt… Wird Bitcoin erneut eine „Bullenmarkt“ erleben?
Die drei wichtigsten US-Aktienindizes schlossen uneinheitlich, Western Digital fiel um 8,1%.
Bitcoin, NASDAQ und Silber fallen gemeinsam in seltenem synchronisiertem Marktrückgang
Tether unterstützt LayerZero Labs bei der Verbesserung globaler digitaler Asset-Transfers
Die Bitcoin-ETF-Bestände der Harvard-Universität übersteigen den Marktwert ihrer Beteiligung an der Muttergesellschaft von Google, Alphabet.