Menurut pemantauan 1M AI News, tim Meituan Longmao merilis LongCat-Next, sebuah model multimodal asli berbasis arsitektur MoE dengan 3B parameter aktif, yang menyatukan lima kemampuan dalam satu kerangka autoregressive tunggal: pemahaman teks, visual, generasi gambar, pemahaman suara, dan sintesis suara. Model dan tokenizer pendukungnya dirilis dengan lisensi MIT, dan bobotnya sudah tersedia di HuggingFace.
Desain inti LongCat-Next adalah paradigma DiNA (Discretely Native Autoregressive): dengan merancang tokenizer dan decoder yang cocok untuk setiap modalitas, mengubah sinyal visual dan audio menjadi token diskret, berbagi ruang embedding yang sama dengan teks, dan menyelesaikan semua tugas melalui prediksi token berikutnya secara seragam. Komponen kunci di sisi visual, dNaViT (Vision Transformer resolusi asli diskret), mengekstrak fitur gambar menjadi “kata visual”, mendukung tokenisasi dan decoding dinamis, tetap mempertahankan kualitas generasi gambar yang kuat meskipun dikompresi hingga 28 kali lipat, terutama dalam rendering teks.
Dalam perbandingan model dengan jumlah parameter aktif yang setara (A3B), performa utama LongCat-Next adalah sebagai berikut:
Dalam perbandingan model yang menggabungkan pemahaman dan generasi secara seragam, skor MMMU LongCat-Next mencapai 70.6, mengungguli NEO-unify (68.9), dan secara signifikan melampaui solusi model seragam sebelumnya seperti BAGEL (55.3) dan Ovis-U1 (51.1). Performa SWE-Bench 43.0 dan rangkaian alat Tau2 juga menunjukkan bahwa arsitektur multimodal terpadu ini tidak mengorbankan kemampuan teks murni maupun kemampuan Agent.