Cloudflare integriert Kimi K2.5 und spart 77% der Sicherheitsprüfungskosten bei täglich 7 Milliarden Token

動區BlockTempo

Cloudflare’s Workers AI Plattform hat still eine große Neuerung vorgenommen: Das Moonshot AI Modell Kimi K2.5 wurde als Standardmodell für das Agents SDK eingestellt. Die internen Sicherheitsprüfungs-Agenten von Cloudflare verarbeiten täglich über 7 Milliarden Tokens, und der Wechsel zu Kimi K2.5 hat die Kosten im Vergleich zu mittleren kommerziellen Modellen um 77 % gesenkt.
(Frühere Berichte: Cursor nutzte Kimi K2.5 zum Trainieren des Modells, aber es wurde nichts gesagt. Entwickler dokumentierten Packete, Löschungen und die plötzliche Kehrtwende der offiziellen Stelle)
(Hintergrund: Cloudflare, das dir beim Blockieren von Crawlern hilft, hat eine „One-Click-Website-Crawler-API“ eingeführt, die RAG, inkrementelles Update und Modelltraining perfekt unterstützt)

Inhaltsverzeichnis

Toggle

  • Ein Sicherheits-Agent, der täglich 7 Milliarden Tokens verarbeitet
  • Drei Verbesserungen von Cloudflare
  • Die zugrunde liegende Reasoning-Engine: Infire-Unterstützung, kein starres Framework

Cloudflare hat eine bedeutende Neuerung bei der Workers AI Plattform vorgenommen. Laut dem offiziellen Blog von Cloudflare wurde das Moonshot AI Modell Kimi K2.5 als Standard für das Agents SDK festgelegt. Die Cloudflare-Ingenieure verwenden es selbst für echte Sicherheitsprüfungen und sparen dabei erheblich.

Kimi K2.5 ist eines der wenigen Open-Source-Modelle, das „state-of-the-art“ Spezifikationen erfüllt. Es unterstützt 256K Kontextfenster, Multi-Turn-Tool-Calling, visuelle Eingaben und strukturierte Ausgaben. Für Agenten, die längere Texte für Reasoning benötigen, sind diese Zahlen äußerst praktisch.

Ein Sicherheits-Agent, der täglich 7 Milliarden Tokens verarbeitet

Cloudflare-Ingenieure nutzen Kimi K2.5 direkt im OpenCode-Umfeld als Haupt-Programmier-Agent und haben einen öffentlichen Code-Review-Agent namens „Bonk“ integriert, der automatisierte Pipelines nutzt.

Besonders beeindruckend ist die Anwendung im internen Sicherheitsprüfungs-Szenario. Dieser Agent verarbeitet täglich über 7 Milliarden Tokens. Bei Verwendung eines Standard-Commercial-Modells für dieselbe Arbeitsmenge würden die Kosten etwa 2,4 Millionen US-Dollar pro Jahr betragen. Mit Kimi K2.5 wurden die Kosten um 77 % reduziert, was fast 1,85 Millionen US-Dollar einsparen bedeutet.

Diese Zahl ist kein Werbeversprechen, sondern eine direkte Angabe der Cloudflare-Ingenieure im offiziellen Blog.

Drei Plattform-Verbesserungen von Cloudflare

Nur das Modell zu wechseln reicht nicht aus. Cloudflare hat gleichzeitig drei Plattform-Verbesserungen eingeführt, die speziell auf die Kosten- und Effizienzprobleme bei längeren Agenten-Dialogen abzielen:

  • Prefix Caching: Eingaben, die bereits in Multi-Turn-Dialogen verarbeitet wurden, werden nicht erneut berechnet. Tokens, die im Cache sind, profitieren von Rabatten. Bei langen Aufgaben spart man dadurch erheblich.
  • Session Affinity Header: Ein neuer Request-Header x-session-affinity sorgt dafür, dass die gleiche Sitzung immer zum selben Modell geleitet wird, was die Cache-Hit-Rate erhöht. OpenCode und das Agents SDK Starter unterstützen das bereits.
  • Asynchrone Batch-Inferenz-API: Anfragen, die die Rate-Limits überschreiten, können asynchron in eine Warteschlange gestellt werden. Die interne Testung dauert meist nur 5 Minuten. Ideal für Code-Scanning, Forschungs-Agents und andere Aufgaben, die keine sofortige Antwort benötigen.

Die zugrunde liegende Reasoning-Engine: Infire-Unterstützung, kein starres Framework

Cloudflare setzt nicht auf fertige Reasoning-Frameworks, sondern hat eine eigene, maßgeschneiderte Infire-Inferenz-Engine entwickelt. Diese nutzt Daten-Parallelität, Tensor-Parallelität und Experten-Parallelisierung, kombiniert mit einer separaten Prefix-Verarbeitungsarchitektur.

Derzeit ist Kimi K2.5 das erste große Modell, das auf der Workers AI Plattform für Inferenz eingesetzt wird. Es zeigt auch die Ambitionen von Cloudflare im Bereich der KI-Infrastruktur. Die Lösung ist netzwerkbasiert und gleichzeitig kostengünstig.

Original anzeigen
Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Kommentieren
0/400
Keine Kommentare