Xiaomi раскрывает детали обучения модели MiMo-V2-Pro объемом 1Т: задействовано тысячи калорий, без ранга и без дедлайна

robot
Генерация тезисов в процессе

ME News Новости, 24 апреля (UTC+8), согласно мониторингу 动察 Beating, руководитель команды больших моделей Xiaomi 罗福莉 в первом глубоком интервью раскрыла, что базовая модель MiMo-V2-Pro имеет общее количество параметров 1 триллион, для обучения использовано тысячи GPU. Она считает, что масштаб в 1 триллион — это минимальный уровень для достижения близкого к Claude Opus 4.6 уровня и получения пропуска на следующий этап участия в конкуренции агентов.
На техническом уровне, версия Pro увеличивает соотношение глобального внимания и скользящего окна внимания до 7:1, достигая экстремально разреженного соотношения, что при увеличении количества параметров контролирует вычислительные затраты на обработку длинных текстов, а также использует архитектуру MTP (многотокенное предсказание) для ускорения inference за счет избыточных вычислительных ресурсов.
На управленческом уровне, в команде MiMo из ста человек только тридцать или сорок непосредственно участвуют в ключевых итерациях, команда не устанавливает иерархии должностей, не делит на четкие подгруппы и не имеет жестких сроков сдачи. В случае нестабильных числовых показателей, таких как скачки в loss при обучении, команда предпочитает сразу останавливать обучение для диагностики, даже если это занимает одну-две недели и стоит миллионы вычислительных ресурсов.
(Источник: BlockBeats)

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить