Компанія з розробки великих моделей штучного інтелекту MosaicML нещодавно випустила нову комерційно доступну велику мовну модель MPT-30B з відкритим кодом із 30 мільярдами параметрів, яка значно потужніша за мовну модель попереднього покоління MPT-7B (7 мільярдів параметрів), а її продуктивність становить краще, ніж GPT-3.
Джерело зображення: створено Unbounded AI
Крім того, вони випустили дві вдосконалені моделі: MPT-30B-Instruct і MPT-30B-Chat, які створені на базі MPT-30B і добре підходять для відстеження інструкцій за один хід і багатоповоротного діалогу відповідно.
Особливості моделі MPT-30B:
Модель було розширено до вікна контексту маркерів 8k на NVIDIA H100, що робить її першим LLM, навченим на H100.
MPT-30B — це комерційна базова модель із відкритим вихідним кодом під ліцензією Apache 2.0, потужніша за оригінальну GPT-3 і конкурентоспроможна з іншими моделями з відкритим кодом, такими як LLaMa-30B і Falcon-40B.
(Вгорі) Точність нульового удару MPT-30B проти GPT-3 у дев’яти завданнях контекстного навчання (ICL). MPT-30B перевершує GPT-3 за шістьма з дев’яти показників.
MosaicML навчав MPT-30B протягом 2 місяців, використовуючи для навчання кластер Nvidia H100 GPU.
Як показано на малюнку нижче, навчальні дані MPT-30B:
MPT-30B попередньо навчається за допомогою змішування даних, і 1T маркерів даних попереднього навчання збирається з 10 різних корпусів тексту з відкритим вихідним кодом, а текст сегментується за допомогою EleutherAI GPT-NeoX-20B tokenizer і відбирається відповідно до наведеного вище співвідношення .
Порівняння MPT-7B і MPT-30B
Навін Рао, генеральний директор і співзасновник MosaicML, сказав, що вартість навчання MPT-30B становить 700 000 доларів США (приблизно 5,0244 мільйона юанів), що набагато менше, ніж десятки мільйонів доларів, необхідні для аналогічних продуктів, таких як GPT- 3. .
Скільки часу та грошей займе навчання моделі MPT-30B на замовлення? Почнемо з базової моделі.
На малюнку вище показано час і вартість попереднього навчання MPT-30B з нуля за допомогою графічних процесорів A100 або H100. Завдяки інфраструктурі MosaicML ви можете навчити свій власний MPT-30B з нуля за допомогою токенів 1T за 2 тижні.
Що робити, якщо ви не хочете тренуватися з нуля, а просто налаштовуєте існуючу модель?
На малюнку нижче показано час і вартість тонкого налаштування MPT-30B для кожного токена 1B. Завдяки інфраструктурі MosaicML ви можете повністю налаштувати свою модель MPT-30B, не турбуючись про обмеження системної пам’яті, і лише за кілька сотень доларів!
У MosaicML заявили, що розширення моделі до 30 мільярдів параметрів є лише першим кроком, а потім вони запустять більшу та якіснішу модель на основі зниження витрат.
Література: