Мобільний LLM: вузьке місце у продуктивності — розуміння розріджених активацій та обмежень зберігання

2025-12-20 11:25:14

Виклик зберігання на смартфонах

Сучасні смартфони стикаються з фундаментальним обмеженням при запуску великих мовних моделей: недостатньою ємністю DRAM для зберігання повних ваг моделі. Це обмеження змушує системи розподіляти параметри моделі між зовнішніми рішеннями зберігання, такими як UFS 4.0, який використовується в процесорах Snapdragon 8gen3. Розуміння характеристик продуктивності мобільного зберігання є критичним для оптимізації AI-інференсу на периферійних пристроях.

Аналіз продуктивності зчитування I/O

Розмір блоку та пропускна здатність читання

Мобільне зберігання демонструє контрінтуїтивну закономірність продуктивності, пов’язану з розміром блоку читання. При послідовному або випадковому доступі більші блоки читання забезпечують вищу ефективність пропускної здатності. Блок розміром 512КБ досягає максимальної продуктивності 4 ГБ/с для послідовних читань і 3,5 ГБ/с для випадкових. Однак зменшення розміру блоку до 4КБ різко знижує продуктивність — пропускна здатність випадкового читання падає до всього 450 МБ/с. Це створює важливий аспект дизайну для реалізації розріджених таблиць та стратегій отримання ваг.

Вплив діапазону випадкового доступу

Цікаво, що обсяг випадкових операцій значно впливає на пропускну здатність. Менші діапазони читання стабільно перевищують великі. При виконанні випадкових читань 4КБ, діапазон 128МБ досягає приблизно 1 ГБ/с, тоді як розширення до 512МБ зменшує пропускну здатність нижче 850 МБ/с. Ця різниця стає менш помітною при більших розмірах блоків, що свідчить про необхідність ретельного балансування режимів доступу до розріджених таблиць.

Залежність від ядер CPU

Ядро процесора, яке виконує команди I/O, безпосередньо впливає на продуктивність зберігання. Ядра з більшою тактовою частотою забезпечують вищу пропускну здатність I/O. Великі ядра, що працюють на 3,3 ГГц, досягають 1 ГБ/с для випадкових читань 4КБ, тоді як малі ядра на 2,2 ГГц — лише 760 МБ/с. Це зумовлено тим, що драйвер UFS повинен обробляти переривання та управління чергами — вищі тактові частоти дозволяють швидше обробляти I/O-завдання.

Обмеження архітектури однієї черги

На відміну від NVMe, мобільне зберігання UFS працює з однією командною чергою без вбудованої підтримки паралельності. Використання кількох ядер для I/O фактично погіршує продуктивність до 40% через конкуренцію за командну чергу. Це фундаментальне архітектурне обмеження означає, що паралельні підходи до I/O на мобільних пристроях не мають переваг.

Архітектура інференсу LLM та двоступеневий процесинг

Інференс мовних моделей виконується через два чітко відрізняються етапи обчислень, кожен з яких має свої характеристики продуктивності і вимагає окремих стратегій оптимізації.

Етап попереднього заповнення: обробка підказки

Етап попереднього заповнення обробля весь запит користувача за один цикл для генерації першого токена. Це створює значне навантаження на обчислювальні ресурси, і час до першого токена (TTFT) є ключовим показником продуктивності. Весь запит виступає як щільний вхід, оброблений колективно через трансформерні шари моделі.

Етап декодування: послідовне генерування

Після попереднього заповнення, етап декодування генерує вихідні токени послідовно у автогресивному режимі. Кожен новий токен використовується як вхід для наступної ітерації, поки не буде завершена послідовність або не буде згенеровано EOS-токен. Оскільки кожна ітерація обробля лише один токен, обчислювальне навантаження легше, але пропускна здатність обмежується часом між токенами (TBT). Цей етап визначає швидкість відповіді для користувача.

Розріджена активація: можливість підвищення ефективності

Чому важлива розрідженість

Сучасні трансформери, такі як GPT-4 і Llama-2, використовують архітектури лише з декодером з повторюваними блоками: механізмами уваги та Feed-Forward Networks (FFN). Останні варіанти з груповою увагою (Group Query Attention) значною мірою зсувають обчислювальне навантаження у бік блоків FFN, які тепер становлять приблизно 80% параметрів моделі.

Блоки FFN використовують функції активації з сімейства ReLU, що створюють природні шаблони розрідженості: більшість нейронів (зображені у вигляді рядків і стовпців у матрицях ваг) дають мінімальний внесок у вихід. Неактивні нейрони можна пропускати без значного впливу на кінцевий результат. Створення розрідженої таблиці передбачених активацій нейронів дозволяє суттєво зменшити обчислювальні витрати.

Оптимізація на основі передбачення

Статус активності нейронів можна точно передбачити до обчислень FFN. Попередні дослідження, включаючи PowerInfer і DejaVu, показують, що легкі MLP-мережі, що передбачають активність нейронів перед кожним блоком FFN, досягають високої точності. Такий підхід перетворює розрідженість активацій з внутрішньої властивості у потенційну оптимізацію, що зменшує обчислювальні витрати і прискорює інференс.

Інтеграційні виклики

Справжня складність полягає у поєднанні використання розрідженої активації з обмеженнями мобільного зберігання. Структури розріджених таблиць, що базуються на передбаченнях, мають узгоджуватися з моделлю I/O зберігання — використовуючи малі, сфокусовані діапазони читання у межах вікна 128МБ для підтримки пропускної здатності 1 ГБ/с і мінімізації конкуренції на архітектурі з однією чергою UFS.

Практичні наслідки для AI на пристроях

Ефективні мобільні системи LLM повинні одночасно враховувати два напрямки оптимізації: використання розріджених патернів нейронів за допомогою передбачувальних механізмів і врахування унікальних характеристик I/O мобільного зберігання. Взаємодія між патернами розрідженої обчислювальної активності та моделлю доступу до зберігання визначає реальну продуктивність — жоден з аспектів не може бути оптимізований ізольовано без втрати загальної ефективності системи.

Наукова команда: Зенліанг Сюе та Ісінь Сонг (Співавтори), а також Зею Мі, Лі Чен, Юбін Ся, та Хайбо Чен з Інституту паралельних та розподілених систем (IPADS), Шанхайський університет Цзяо Тонг

Цей аналіз базується на академічних дослідженнях, доступних за ліцензією CC BY 4.0, зосереджуючись на характеристиках продуктивності зчитування ваг.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.