MiniMax M2.7 將 2300 億參數的 AI 模型引入 NVIDIA 基礎設施

robot
摘要生成中

Ted Hisokawa

2026年4月12日 01:37

MiniMax發布了M2.7,一款擁有2300億參數的專為NVIDIA GPU優化的混合專家模型,在Blackwell硬件上實現了高達2.7倍的吞吐量提升。

MiniMax已推出M2.7,一款擁有2300億參數的開放權重AI模型,專為自主代理工作流程設計,現已在NVIDIA的推理生態系統中提供,包括該公司最新的Blackwell Ultra GPU。

該模型在企業AI中代表著一個顯著的效率提升。儘管其總參數數量達到2300億,M2.7每個標記僅激活10億參數——通過256個本地專家使用混合專家(MoE)架構實現4.3%的激活率。這使推理成本保持在可控範圍內,同時保持了更大模型的推理能力。

在Blackwell上的性能數據

NVIDIA與開源社群合作,優化了M2.7以應對生產工作負載。兩個關鍵優化——融合的QK RMS正則核和來自TensorRT-LLM的FP8 MoE集成——在Blackwell Ultra GPU上帶來了顯著的吞吐量提升。

使用1K/1K輸入/輸出序列長度的數據集測試顯示,vLLM的吞吐量提升最高達2.5倍,而SGLang則達到2.7倍。這兩項優化在一個月內完成,表明還有進一步的性能空間。

技術架構

M2.7支持62層、長度達200K的輸入上下文,採用多頭因果自注意力與Rotary Position Embeddings (RoPE)。一個top-k專家路由機制只激活256個專家中的8個,這是模型在保持低推理成本的同時,能夠應對其規模的原因。

該架構針對編碼挑戰和複雜的代理任務——這些工作流程中,AI系統需要自主規劃、執行和迭代,而非僅對單一提示做出反應。

部署選項

開發者可以通過多種渠道訪問M2.7。NVIDIA的NemoClaw參考堆棧提供一鍵部署,用於運行具有OpenShell運行時的自主代理。該模型也可通過NVIDIA NIM容器化微服務在本地、雲端或混合部署。

對於希望定制模型的團隊,NVIDIA的NeMo AutoModel庫支持根據已發布的方案進行微調。強化學習工作流程可通過NeMo RL獲得,並提供8K和16K序列長度的範例配置。

在build.nvidia.com上的免費GPU加速端點允許在投入基礎設施前進行測試。開放權重也可在Hugging Face上獲取,用於自行托管部署。

此次發布使MiniMax成為企業構建自主AI系統的可靠替代方案,與OpenAI和Anthropic的封閉模型競爭,特別是那些已經投資於NVIDIA基礎設施的企業。

圖片來源:Shutterstock

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言
  • 熱門 Gate Fun

    查看更多
  • 市值:$2286.2持有人數:1
    0.00%
  • 市值:$2282.75持有人數:1
    0.00%
  • 市值:$2282.75持有人數:1
    0.00%
  • 市值:$2275.86持有人數:0
    0.00%
  • 市值:$2279.31持有人數:0
    0.00%