وفقًا لمراقبة 1M AI News، قام فريق ميتوان لونغماو بفتح مصدر LongCat-Next، وهو نموذج متعدد الوسائط أصلي يعتمد على بنية MoE، ويحتوي على 3 مليارات من المعلمات النشطة، ويوحد قدرات النص، والفهم البصري، وتوليد الصور، والفهم الصوتي، والتوليف الصوتي في إطار واحد للتوليف التلقائي الأحادي. النموذج والمحول المرافق له متاحان بموجب ترخيص MIT، وتم إصدار الأوزان على منصة HuggingFace.
التصميم الأساسي لـ LongCat-Next هو نمط DiNA (التوليف التلقائي الأصلي المنفصل): من خلال تصميم محولات ومفاتيح مرتبطة لكل نوع من الوسائط، يتم تحويل الإشارات البصرية والصوتية إلى رموز منفصلة، وتشارك في نفس مساحة التضمين مع النص، ويُكمل جميع المهام باستخدام توقع الرمز التالي الموحد. المكون الرئيسي في الجانب البصري، dNaViT (Transformer الرؤية المنفصل الأصلي الدقة)، يستخرج ميزات الصورة كـ “كلمات بصرية”، ويدعم التقطيع والتشفير الديناميكي، مع الحفاظ على جودة توليد الصور قوية حتى بنسبة ضغط 28 مرة، مع أداء متميز بشكل خاص في عرض النصوص.
مقارنة مع نماذج ذات حجم معلمات نشطة مماثلة (A3B)، الأداء الرئيسي لـ LongCat-Next هو:
في المقارنة الأفقية بين النماذج الموحدة للفهم والتوليد، سجل LongCat-Next درجة MMMU قدرها 70.6، متفوقًا على المركز الثاني NEO-unify (68.9)، متجاوزًا بشكل كبير حلول النماذج الموحدة السابقة مثل BAGEL (55.3) و Ovis-U1 (51.1). كما أن أداء SWE-Bench 43.0 وسلسلة أدوات Tau2 في استدعاء الأدوات يوضح أن هذا الهيكل الموحد متعدد الوسائط لم يُضحِّ بقدرات النص الصريح أو الوكيل.