美团开源LongCat-Next:3B参数统一视觉理解、生成与语音

区块律动

据 1M AI News 监测,美团龙猫团队开源 LongCat-Next,一个基于 MoE 架构、激活参数 3B 的原生多模态模型,在单一自回归框架下统一了文本、视觉理解、图像生成、语音理解和语音合成五种能力。模型及配套分词器以 MIT 许可证开源,权重已上线 HuggingFace。

LongCat-Next 的核心设计是 DiNA(离散原生自回归)范式:通过为每种模态设计配对的分词器和解码器,将视觉和音频信号转化为离散 token,与文本共享同一嵌入空间,用统一的 next-token prediction 完成所有任务。视觉侧的关键组件 dNaViT(离散原生分辨率 Vision Transformer)将图像特征提取为「视觉词」,支持动态分词和解码,在 28 倍压缩比下仍保持较强的图像生成质量,尤其在文字渲染方面表现突出。

在同等激活参数量级(A3B)的模型对比中,LongCat-Next 的主要基准表现:

  1. 视觉理解:MMMU-Pro 60.3(Qwen3-Omni 57.0,GPT5-minimal 62.7),MathVista 83.1(Qwen3-Omni 75.9,GPT5-minimal 50.9),MathVision 64.7(领先所有对比模型),DocVQA 94.2
  2. 图像生成:GenEval 84.44,LongText-EN 93.15(FLUX.1-dev 60.70,Emu-3.5 97.60)
  3. 编程:SWE-Bench 43.0(Kimi-Linear-48B 32.8,Qwen3-Next-80B 37.6)
  4. Agent 工具调用:Tau2-Retail 73.68(Qwen3-Next 57.3),Tau2-Telecom 62.06(Qwen3-Next 13.2)

在理解与生成统一模型的横向对比中,LongCat-Next 的 MMMU 得分 70.6 领先第二名 NEO-unify(68.9),大幅超过 BAGEL(55.3)和 Ovis-U1(51.1)等此前的统一模型方案。SWE-Bench 43.0 和 Tau2 系列工具调用基准的表现也说明,这一多模态统一架构并未牺牲纯文本和 Agent 能力。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论