Cloudflare mengintegrasikan Kimi K2.5 dan menjalankan 7 miliar token setiap hari, menghemat 77% biaya audit keamanan

動區BlockTempo

Platform AI Workers Cloudflare secara resmi mengintegrasikan Kimi K2.5 dari Moonshot AI, mendukung konteks 256K, panggilan alat berulang, dan input visual. Agen audit keamanan internal Cloudflare menangani lebih dari 7 miliar token setiap hari, dan setelah beralih, biaya turun sebesar 77% dibandingkan model komersial menengah.
(Latar belakang: Cursor melatih model dengan Kimi K2.5 tetapi tidak mengumumkannya, pengembang merekam paket data, menghapus push, dan semua perubahan mendadak dari pihak resmi)
(Keterangan tambahan: Cloudflare yang membantu memblokir crawler meluncurkan API “Satu Klik Crawler Seluruh Situs”, mendukung RAG, pembaruan inkremental, dan pelatihan model secara sempurna)

Daftar isi artikel

Toggle

  • Agen Keamanan yang Memproses 7 Miliar Token Sehari
  • Tiga Perbaikan yang Diluncurkan Cloudflare
  • Mesin Inferensi Dasar: Didukung Infire, Bukan Sekadar Menggunakan Kerangka Jadi

Platform AI Workers Cloudflare diam-diam melakukan langkah besar, menurut blog resmi Cloudflare, dengan menjadikan Kimi K2.5 dari Moonshot AI sebagai model default untuk starter SDK Agen. Insinyur Cloudflare sendiri juga menggunakannya untuk menjalankan tugas audit keamanan nyata, dan menghemat banyak biaya.

Kimi K2.5 adalah salah satu dari sedikit model dalam komunitas open-source yang mencapai “spesifikasi terdepan”, mendukung jendela konteks 256K, panggilan alat berulang (multi-turn tool calling), input visual, dan output terstruktur. Untuk tugas agen yang membutuhkan penalaran teks panjang, angka-angka ini sudah sangat berguna.

Agen Keamanan yang Memproses 7 Miliar Token Sehari

Insinyur Cloudflare langsung menggunakan Kimi K2.5 sebagai agen utama dalam lingkungan OpenCode untuk pemrograman, dan juga mengembangkan agen review kode publik bernama “Bonk” yang terintegrasi dalam pipeline otomatis.

Lebih mencolok lagi adalah skenario audit keamanan internal. Agen ini menangani lebih dari 7 miliar token setiap hari. Jika menggunakan model komersial standar untuk volume kerja yang sama, biayanya sekitar 2,4 juta dolar AS per tahun. Setelah beralih ke Kimi K2.5, biaya langsung dipotong 77%, menghemat hampir 1,85 juta dolar AS.

Angka ini bukan iklan, melainkan pengakuan langsung dari insinyur Cloudflare yang dipublikasikan di blog resmi.

Tiga Perbaikan yang Diluncurkan Cloudflare

Hanya mengganti model tidak cukup, Cloudflare juga meluncurkan tiga peningkatan di tingkat platform, secara khusus menargetkan masalah biaya dan efisiensi dalam skenario percakapan panjang agen:

  • Diskon Cache Prefix: Token input yang sudah diproses dalam percakapan berulang tidak lagi dihitung ulang, token yang cocok cache-nya mendapatkan harga diskon. Untuk tugas panjang, penghematan ini cukup signifikan.
  • Header Session Affinity: Menambahkan header permintaan x-session-affinity, yang mengarahkan sesi yang sama ke model yang sama, meningkatkan tingkat cache hit. OpenCode dan starter SDK Agen sudah mendukung fitur ini secara bawaan.
  • API Inferensi Batch Asinkron: Permintaan yang melebihi batas kecepatan sinkron dapat dijadwalkan secara asinkron, biasanya selesai dalam 5 menit selama pengujian internal. Cocok untuk pemindaian kode, penelitian, dan tugas agen yang tidak membutuhkan respons langsung.

Mesin Inferensi Dasar: Didukung Infire, Bukan Sekadar Menggunakan Kerangka Jadi

Cloudflare tidak menggunakan kerangka inferensi jadi, melainkan mengembangkan inti inferensi kustom dengan mesin Infire sendiri, mengadopsi paralelisme data, paralelisme tensor, dan paralelisme ahli, dengan arsitektur pemrosesan prefix yang terpisah.

Saat ini, Kimi K2.5 adalah kasus pertama inferensi model besar yang dioperasikan di Workers AI, sekaligus menunjukkan ambisi Cloudflare dalam infrastruktur AI, yang dapat disesuaikan dengan platform web dan tetap terjangkau.

Lihat Asli
Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar