Según la monitorización de 1M AI News, el equipo de Meituan Longmao ha abierto el código de LongCat-Next, un modelo nativo multimodal basado en la arquitectura MoE, con 3B de parámetros activos. Este modelo unifica cinco capacidades: comprensión de texto y visión, generación de imágenes, comprensión de voz y síntesis de voz, todo en un marco autoregresivo único. El modelo y su tokenizador asociado se han lanzado bajo la licencia MIT, y los pesos ya están disponibles en HuggingFace.
El diseño central de LongCat-Next es el paradigma DiNA (Autoregresivo Discreto Nativo): mediante la creación de tokenizadores y decodificadores emparejados para cada modalidad, convierte señales visuales y de audio en tokens discretos, compartiendo el mismo espacio de incrustación con el texto, y realiza predicciones de siguiente token para completar todas las tareas. El componente clave en visión, dNaViT (Vision Transformer de resolución nativa discreta), extrae características de imágenes en “palabras visuales”, soportando tokenización y decodificación dinámica. Mantiene una alta calidad de generación de imágenes incluso con una compresión de 28 veces, destacándose especialmente en renderizado de texto.
En comparación con modelos de tamaño similar (A3B), los principales resultados de LongCat-Next son:
En comparación transversal de modelos unificados para comprensión y generación, LongCat-Next obtiene una puntuación MMMU de 70.6, superando ampliamente a NEO-unify (68.9), y mucho más que BAGEL (55.3) y Ovis-U1 (51.1), que son soluciones anteriores de modelos unificados. El rendimiento en SWE-Bench 43.0 y en las pruebas de llamadas a herramientas de la serie Tau2 también demuestran que esta arquitectura multimodal unificada no sacrifica las capacidades de texto puro ni las de agentes.