MiMo-V2-Pro 基座参数量达1T，训练动用数千张GPU，目标接近 Claude Opus 4.6、拿到下阶段 Agent 竞争入场券。技术层面将全局注意力与滑动窗口注意力比推至7:1 的极致稀疏，控制长文本推理成本，并沿用 MTP 架构加速推理。管理层面，百人规模的 MiMo 团队只有三四十人直接参与核心迭代，缺乏职级和明确的交付 deadline，遇到训练 loss 跳变时会直接停训排查，可能停机一两周、耗费数百万算力。

MeNews

2026-04-24 06:01:33

Генерация тезисов в процессе

ME News Новости, 24 апреля (UTC+8), согласно мониторингу 动察 Beating, руководитель команды больших моделей Xiaomi 罗福莉 в первом глубоком интервью раскрыла, что базовая модель MiMo-V2-Pro имеет общее количество параметров 1 триллион, для обучения использовано тысячи GPU. Она считает, что масштаб в 1 триллион — это минимальный уровень для достижения близкого к Claude Opus 4.6 уровня и получения пропуска на следующий этап участия в конкуренции агентов.
На техническом уровне, версия Pro увеличивает соотношение глобального внимания и скользящего окна внимания до 7:1, достигая экстремально разреженного соотношения, что при увеличении количества параметров контролирует вычислительные затраты на обработку длинных текстов, а также использует архитектуру MTP (многотокенное предсказание) для ускорения inference за счет избыточных вычислительных ресурсов.
На управленческом уровне, в команде MiMo из ста человек только тридцать или сорок непосредственно участвуют в ключевых итерациях, команда не устанавливает иерархии должностей, не делит на четкие подгруппы и не имеет жестких сроков сдачи. В случае нестабильных числовых показателей, таких как скачки в loss при обучении, команда предпочитает сразу останавливать обучение для диагностики, даже если это занимает одну-две недели и стоит миллионы вычислительных ресурсов.
(Источник: BlockBeats)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
WCTCTradingChallengeShare8MUSDT
836.48K Популярность
#
CryptoMarketSeesVolatility
203.36K Популярность
#
IsraelStrikesIranBTCPlunges
30.82K Популярность
#
rsETHAttackUpdate
78.93K Популярность
#
US-IranTalksStall
7.8K Популярность

Закрепить

Карта сайта

Xiaomi раскрывает детали обучения модели MiMo-V2-Pro объемом 1Т: задействовано тысячи калорий, без ранга и без дедлайна

Популярные темы

WCTCTradingChallengeShare8MUSDT

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Закрепить