Велика модель MPT-30B із відкритим вихідним кодом і комерційно доступна вартість 30 мільярдів параметрів становить лише незначну частину GPT-3

巴比特_

2023-06-26 08:21:55

Компанія з розробки великих моделей штучного інтелекту MosaicML нещодавно випустила нову комерційно доступну велику мовну модель MPT-30B з відкритим кодом із 30 мільярдами параметрів, яка значно потужніша за мовну модель попереднього покоління MPT-7B (7 мільярдів параметрів), а її продуктивність становить краще, ніж GPT-3.

Джерело зображення: створено Unbounded AI

Крім того, вони випустили дві вдосконалені моделі: MPT-30B-Instruct і MPT-30B-Chat, які створені на базі MPT-30B і добре підходять для відстеження інструкцій за один хід і багатоповоротного діалогу відповідно.

Особливості моделі MPT-30B:

Контекстне вікно маркера 8k під час навчання
Підтримка довших контекстів через ALiBi
Досягніть ефективного висновку + ефективності навчання за допомогою FlashAttention
Серія MPT-30B також має потужні можливості кодування завдяки попередньо налаштованому міксу даних.

Модель було розширено до вікна контексту маркерів 8k на NVIDIA H100, що робить її першим LLM, навченим на H100.

MPT-30B сильніший за GPT-3?

MPT-30B — це комерційна базова модель із відкритим вихідним кодом під ліцензією Apache 2.0, потужніша за оригінальну GPT-3 і конкурентоспроможна з іншими моделями з відкритим кодом, такими як LLaMa-30B і Falcon-40B.

(Вгорі) Точність нульового удару MPT-30B проти GPT-3 у дев’яти завданнях контекстного навчання (ICL). MPT-30B перевершує GPT-3 за шістьма з дев’яти показників.

MosaicML навчав MPT-30B протягом 2 місяців, використовуючи для навчання кластер Nvidia H100 GPU.

Як показано на малюнку нижче, навчальні дані MPT-30B:

MPT-30B попередньо навчається за допомогою змішування даних, і 1T маркерів даних попереднього навчання збирається з 10 різних корпусів тексту з відкритим вихідним кодом, а текст сегментується за допомогою EleutherAI GPT-NeoX-20B tokenizer і відбирається відповідно до наведеного вище співвідношення .

Порівняння MPT-7B і MPT-30B

Вартість навчання MPT-30B

Навін Рао, генеральний директор і співзасновник MosaicML, сказав, що вартість навчання MPT-30B становить 700 000 доларів США (приблизно 5,0244 мільйона юанів), що набагато менше, ніж десятки мільйонів доларів, необхідні для аналогічних продуктів, таких як GPT- 3. .

Скільки часу та грошей займе навчання моделі MPT-30B на замовлення? Почнемо з базової моделі.

На малюнку вище показано час і вартість попереднього навчання MPT-30B з нуля за допомогою графічних процесорів A100 або H100. Завдяки інфраструктурі MosaicML ви можете навчити свій власний MPT-30B з нуля за допомогою токенів 1T за 2 тижні.

Що робити, якщо ви не хочете тренуватися з нуля, а просто налаштовуєте існуючу модель?

На малюнку нижче показано час і вартість тонкого налаштування MPT-30B для кожного токена 1B. Завдяки інфраструктурі MosaicML ви можете повністю налаштувати свою модель MPT-30B, не турбуючись про обмеження системної пам’яті, і лише за кілька сотень доларів!

У MosaicML заявили, що розширення моделі до 30 мільярдів параметрів є лише першим кроком, а потім вони запустять більшу та якіснішу модель на основі зниження витрат.

Література:

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Прокоментувати

0/400

Немає коментарів