OpenAI startet GPT-5.4 Tage nur nach der letzten Version, während der 'QuitGPT'-Ausstieg an Fahrt gewinnt

Decrypt

Kurzfassung

  • OpenAI hat GPT-5.4 vorgestellt, während die Gegenreaktion gegen QuitGPT wegen des Pentagon-KI-Auftrags wächst.
  • GPT-5.4 bietet ein Kontextfenster von 1 Million Tokens, stärkere Argumentations- und agentische Fähigkeiten.
  • Unternehmenskunden profitieren am meisten, da GPT-5.4 schnellere KI-Agenten mit weniger Tokens liefert.

OpenAI begann am Donnerstag mit der Einführung von GPT-5.4—dem bisher leistungsfähigsten Modell—während das Unternehmen versucht, eine PR-Krise einzudämmen, bei der schätzungsweise 2,5 Millionen Nutzer Maßnahmen gegen das Unternehmen ergriffen haben, entweder durch Kündigung ihres Abonnements oder durch Teilen des Boykotts in sozialen Medien. Die sogenannte QuitGPT-Bewegung explodierte, nachdem OpenAI einen Deal mit dem US-Verteidigungsministerium bekannt gab, nur wenige Stunden nachdem Anthropic öffentlich vom selben Vertrag zurücktrat—was den Claude-Hersteller öffentlich in Misskredit brachte, inklusive Kritik von Präsident Trump und anderen Regierungsbeamten. Der Knackpunkt für Anthropic: Das Verteidigungsministerium weigerte sich, eine Sprache aufzunehmen, die den Einsatz autonomer Waffen und die Massenüberwachung US-amerikanischer Bürger ausdrücklich verbietet.

 OpenAI nahm den Deal trotzdem an. CEO Sam Altman, der Fragen zur offensichtlichen Kluft zwischen den Sicherheitslinien seines Unternehmens und der tatsächlichen Vertragsgestaltung beantwortet, braucht diese Nutzer zurück. Hier kommt GPT-5.4 ins Spiel… nur zwei Tage nach der Einführung von GPT-5.3.

Das neue Modell vereint Argumentations-, Programmier- und agentische Fähigkeiten in einer einzigen Version. Es verfügt auch über ein Kontextfenster von einer Million Tokens, was den Nutzern mehr Freiheit bei der Verarbeitung großer Informationsmengen in einer Sitzung gibt. Auf dem Papier sehen die Zahlen vielversprechend aus. Beim GDPval—einem Benchmark, der Wissenstätigkeiten in 44 Berufen testet—erreicht GPT-5.4 in 83,0 % der Vergleiche die Leistung oder übertrifft sie, verglichen mit 70,9 % bei GPT-5.2. Die Computeranwendung ist der größte Fortschritt: Bei OSWorld-Verified, das die Fähigkeit eines Modells misst, einen Desktop anhand von Screenshots und Tastatur-/Mausaktionen zu steuern, erreicht GPT-5.4 eine Erfolgsquote von 75,0 % gegenüber 47,3 % bei GPT-5.2—und übertrifft den menschlichen Durchschnitt von 72,4 %. Beim BrowseComp, einem Test für Deep-Web-Recherche, steigt die Leistung um 17 Prozentpunkte gegenüber GPT-5.2. Das Kontextfenster von 1 Million Tokens und eine Mid-Response-Steuerungsfunktion—mit der Nutzer das Modell während des Denkens umleiten können—runden die wichtigsten Funktionen ab. Diese Funktion spart Zeit und Rechenleistung, da sie vermeidet, alle zuvor generierten Tokens verwerfen zu müssen, wenn ein Fehler erkannt wird.

Wer profitiert von GPT 5.4? Es ist wichtig zu beachten, dass einige Benchmarks hauptsächlich GPT-5.4 vergleichen—und meistens wurde die Argumentation auf extra hohe Anstrengung eingestellt, was kostenlose und Plus-Nutzer nicht genießen—mit GPT-5.2, wobei GPT-5.3 vollständig übersprungen wird. Für Nutzer, die bereits GPT-5.3 verwenden, könnten die Verbesserungen eher inkrementell sein, als die Diagramme vermuten lassen.

Programmierer haben die meisten Gründe, die Erwartungen zu dämpfen: Beim SWE-Bench Pro ist die Verbesserung von GPT-5.3-Codex (56,8 %) auf GPT-5.4 (57,7 %) kaum messbar. Das Modell gibt außerdem an, deutlich weniger Tokens zu benötigen, um Aufgaben zu erledigen, verglichen mit GPT-5.2. „GPT‑5.4 ist unser bisher token-effizientestes Argumentationsmodell und verwendet deutlich weniger Tokens, um Probleme zu lösen, im Vergleich zu GPT‑5.2“, sagte OpenAI. Dennoch ist jede Verbesserung in diesem Bereich positiv für Entwickler, die OpenAI-Modelle via API nutzen und pro Token berechnet werden. Ein Modell mit einer effizienten Denkweise könnte die gleichen Ergebnisse zu einem Bruchteil der Kosten liefern, im Gegensatz zu einem Modell, das dazu neigt, zu überdenken, um die richtige Schlussfolgerung zu erreichen. Ein weiteres Problem für alle, die das neue Modell sofort nutzen möchten: OpenAI sagt, GPT-5.4 werde heute veröffentlicht, ist aber zum Zeitpunkt dieses Textes noch nicht verfügbar, sodass es wahrscheinlich schrittweise ausgerollt wird. Für die meisten Nutzer ist das beste Modell GPT 5.3, das nur für Sofortantworten genutzt werden kann, also Antworten liefert, die keinen großen Aufwand erfordern. Nutzer, die auf Denken angewiesen sind—OpenAIs Begriff für erweitertes Ketten-Denken bei komplexen Aufgaben—sind noch bei GPT-5.2. Mit anderen Worten: Die Nutzer, die das Modell am stärksten ausreizen, sind die letzten, die es erhalten.

Die klaren Nutznießer sind Unternehmenskunden, die umfangreiche Dokumentenarbeit erledigen. Bei einem internen Benchmark für Tabellenkalkulationen erzielte GPT-5.4 87,3 %, verglichen mit GPT-5.2s 68,4 %. Die Rechtsforschungsfirma Harvey gab an, bei ihrer BigLaw-Benchmark-Studie 91 % erreicht zu haben. Mainstay, das Agenten auf 30.000 Grundsteuerportalen einsetzt, berichtete von einer Erfolgsquote beim ersten Versuch von 95 % und Sitzungen, die etwa dreimal schneller liefen bei etwa 70 % weniger Tokens. Das ist eine Effizienzargumentation, die für Beschaffungsteams in Unternehmen relevant sein könnte—aber schwerer zu verkaufen an einzelne Nutzer, die überlegen, ihr Konto zu löschen.

Original anzeigen
Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Kommentieren
0/400
Keine Kommentare