Отделение Tether’s QVAC объявило 17 марта 2026 года о запуске первого в мире кроссплатформенного фреймворка для тонкой настройки LoRA для моделей Microsoft BitNet (LLMs с 1 битом), позволяющего обучать и выполнять выводы ИИ с миллиардами параметров на потребительских GPU и смартфонах.
Этот фреймворк, интегрированный в QVAC Fabric, значительно снижает требования к памяти и вычислительным ресурсам, позволяя тонко настраивать модели до 13 миллиардов параметров на устройствах, таких как iPhone 16, Galaxy S25 и Pixel 9, а модели с 125 миллионами параметров обучаются примерно за 10 минут на мобильном оборудовании.
Релиз знаменует собой важный шаг в стратегическом переходе Tether от эмитента стейблкоинов к более широкому поставщику инфраструктуры, бросая вызов централизованной модели разработки ИИ, доминируемой облачными провайдерами и специализированным оборудованием NVIDIA.
Фреймворк QVAC Fabric позволяет выполнять тонкую настройку LoRA (Low-Rank Adaptation) и ускорение вывода на разнородном потребительском оборудовании, включая:
Настольные GPU: AMD, Intel и NVIDIA
Экосистема Apple: чипы Apple Silicon M и мобильные GPU Bionic
Мобильные GPU: Adreno (Samsung), Mali и другие
Эта широкая совместимость устраняет необходимость в системах уровня предприятия или облачной инфраструктуре, что ранее концентрировало разработку ИИ среди организаций с ограниченными бюджетами на специализированное оборудование.
Инженерная команда Tether успешно продемонстрировала тонкую настройку на флагманских смартфонах с следующими результатами:
Модели с 125М параметров: настройка на Samsung Galaxy S25 (GPU Adreno) за примерно 10 минут на биомедицинском датасете из ~300 документов (~18 тысяч токенов)
Модели с 1 млрд параметров: настройка того же биомедицинского датасета за 1 час 18 минут на Samsung S25 и за 1 час 45 минут на iPhone 16
Максимальная емкость: успешно настроены модели до 13 миллиардов параметров на iPhone 16, что значительно превосходит типичные демонстрации с менее чем 3 миллиардами параметров
Inference BitNet на мобильных GPU показывает значительное ускорение по сравнению с базовыми CPU:
Ускорение: производительность GPU в 2–11 раз выше, чем у CPU на протестированных устройствах
Практический эффект: мобильные GPU теперь могут поддерживать задачи, ранее требующие дорогостоящего специализированного оборудования или дата-центров
Бенчмарки показывают значительную экономию памяти по сравнению с традиционными моделями:
BitNet-1B (TQ1_0): использует до 77,8% меньше VRAM, чем Gemma-3-1B (16-бит)
по сравнению с Qwen3-0.6B: на 65,6% меньше VRAM, чем 16-битная версия
Эти сокращения применимы как к выводу, так и к тонкой настройке LoRA, создавая значительный запас памяти для более крупных моделей и процессов персонализации на оборудовании, ранее считавшемся недостаточным.
Фреймворк позволяет тонко настраивать модели в два раза больше на периферийных устройствах по сравнению с моделями Q4 без BitNet, демонстрируя превосходную эффективность использования памяти архитектуры BitNet.
Генеральный директор Tether Паоло Ардойно заявил, что релиз вписывается в более широкую концепцию доступного ИИ: «Интеллект станет ключевым фактором будущего общества. Когда обучение больших языковых моделей зависит от централизованной инфраструктуры, инновации застаиваются, экосистема становится уязвимой, а общественный баланс рискует. Обеспечивая возможность обучения крупных моделей на потребительском оборудовании, включая смартфоны, QVAC от Tether доказывает, что передовые ИИ могут быть децентрализованными, инклюзивными и доступными для всех.»
Эффективность достигаемых результатов делает возможным федеративное обучение, позволяя обучать и обмениваться тонко настроенными моделями между распределенными устройствами, сохраняя чувствительные данные пользователей локально. Это снижает зависимость от централизованной инфраструктуры и способствует совместному улучшению моделей.
Снижая зависимость от облачных провайдеров, фреймворк позволяет пользователям хранить чувствительные данные локально на своих устройствах во время обучения, что решает проблему конфиденциальности, связанную с передачей данных на централизованные серверы.
Релиз Tether напрямую конкурирует с централизованной моделью разработки ИИ, доминируемой гиперскейлерами и облачными провайдерами. Обеспечивая возможность выполнения значимых задач ИИ на потребительском оборудовании, компания позиционирует себя как инфраструктурного игрока в стеке периферийного ИИ, независимо от традиционных облачных юрисдикций.
Фреймворк, включая статью, адаптеры, бенчмарки и кроссплатформенные бинарные файлы, доступен на Hugging Face. Такой открытый подход направлен на закрепление QVAC как стандартного пути для независимых разработчиков и небольших лабораторий для развертывания ИИ на потребительском оборудовании, создавая культурное и техническое значение вне рамок традиционного регулирования.
Релиз продолжает расширение деятельности Tether за пределы выпуска стейблкоинов в критическую цифровую инфраструктуру, следуя предыдущим инициативам QVAC, включая датасет Genesis I на 41 миллиард токенов и локальную платформу AI Workbench. Компания заявила о дальнейшем инвестировании в децентрализованную инфраструктуру ИИ в ближайшие недели, месяцы и годы.
Полная техническая документация, включая бенчмарки производительности, детали реализации и кроссплатформенные бинарные файлы, доступна на блоге Hugging Face: «Тонкая настройка BitNet LoRA b1.58 LLM на разнородных периферийных GPU через QVAC Fabric.»
Tether описывает свою миссию как продвижение свободы, прозрачности и инноваций через технологии, обеспечивая прямой обмен информацией между равноправными участниками без ненужных посредников. Компания стремится заменить централизованные модели децентрализованной инфраструктурой, ориентированной на конфиденциальность, эффективность и устойчивость.
Фреймворк QVAC Fabric BitNet LoRA поддерживает потребительские GPU от AMD, Intel и NVIDIA; экосистему Apple, включая чипы Silicon M и мобильные GPU Bionic; а также мобильные GPU, такие как Adreno (Samsung), Mali и другие. Это позволяет выполнять тонкую настройку ИИ на ноутбуках, настольных ПК и флагманских смартфонах без специализированного корпоративного оборудования.
По данным тестов Tether, inference на мобильных устройствах с GPU в 2–11 раз быстрее, чем на CPU. Использование памяти сокращается до 77,8% по сравнению с традиционными моделями, что позволяет запускать более крупные модели в рамках тех же аппаратных ограничений.
Настройка модели с 13 миллиардами параметров на смартфоне — это качественный скачок по сравнению с обычными демонстрациями ИИ на устройстве, которые обычно связаны с моделями менее 3 миллиардов параметров или с переносом тяжелых задач в облако. Эта возможность предполагает будущее, в котором серьезная персонализация моделей и адаптация к конкретным областям могут происходить локально, без передачи пользовательских данных на централизованные серверы.