Meituan открывает исходный код LongCat-Next: единое визуальное понимание, генерация и речь с 3-мя миллиардами параметров

BlockBeatNews

По данным мониторинга 1M AI News, команда Meituan Longmao выпустила открытый исходный код LongCat-Next — нативную мультимодальную модель на базе архитектуры MoE с активированными 3 миллиардами параметров, объединяющую в единой автогрегативной рамке пять возможностей: понимание текста и визуальных данных, генерацию изображений, понимание речи и синтез речи. Модель и сопутствующий токенизатор доступны под лицензией MIT, веса уже размещены на HuggingFace.

Основная концепция LongCat-Next — это парадигма DiNA (Discretely Native Autoregressive): создание парных токенизаторов и декодеров для каждого типа модальности, преобразующих визуальные и аудиосигналы в дискретные токены, которые разделяют общее встраивание с текстом и используют единый предсказатель следующего токена для выполнения всех задач. Ключевой компонент визуальной части — dNaViT (Discretely Native Resolution Vision Transformer), который извлекает визуальные признаки в виде «визуальных слов», поддерживая динамическое токенизирование и декодирование. При этом он сохраняет высокое качество генерации изображений даже при сжатии в 28 раз, особенно хорошо справляясь с рендерингом текста.

В сравнении с моделями аналогичного объема активированных параметров (A3B), основные показатели LongCat-Next следующие:

  1. Визуальное понимание: MMMU-Pro 60.3 (Qwen3-Omni 57.0, GPT5-minimal 62.7), MathVista 83.1 (Qwen3-Omni 75.9, GPT5-minimal 50.9), MathVision 64.7 (лучший среди всех сравниваемых моделей), DocVQA 94.2
  2. Генерация изображений: GenEval 84.44, LongText-EN 93.15 (FLUX.1-dev 60.70, Emu-3.5 97.60)
  3. Программирование: SWE-Bench 43.0 (Kimi-Linear-48B 32.8, Qwen3-Next-80B 37.6)
  4. Вызов инструментов агентом: Tau2-Retail 73.68 (Qwen3-Next 57.3), Tau2-Telecom 62.06 (Qwen3-Next 13.2)

В горизонтальном сравнении по пониманию и генерации в рамках единой модели, оценка MMMU LongCat-Next составляет 70.6, что превосходит второго места NEO-unify (68.9), значительно опережая такие предыдущие решения, как BAGEL (55.3) и Ovis-U1 (51.1). Результаты SWE-Bench 43.0 и показатели вызова инструментов серии Tau2 подтверждают, что эта мультимодальная унифицированная архитектура не жертвует возможностями чистого текста и агентных задач.

Посмотреть Оригинал
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев