Tether’s QVAC-Abteilung kündigte am 17. März 2026 die Einführung des weltweit ersten plattformübergreifenden LoRA-Feinabstimmungs-Frameworks für Microsoft’s BitNet-Modelle (1-Bit-LLMs) an. Damit ist es möglich, billionen-parameter KI-Modelle auf Consumer-GPUs und Smartphones zu trainieren und inferieren.
Das Framework, integriert in QVAC Fabric, reduziert den Speicher- und Rechenaufwand so weit, dass Modelle mit bis zu 13 Milliarden Parametern auf Geräten wie iPhone 16, Galaxy S25 und Pixel 9 feinabgestimmt werden können. 125-Millionen-Parameter-Modelle sind in etwa 10 Minuten auf mobiler Hardware trainierbar.
Die Veröffentlichung markiert einen bedeutenden Schritt in Tether’s strategischer Neuausrichtung vom Stablecoin-Anbieter zu einem umfassenderen Infrastruktur-Anbieter. Damit wird das zentrale KI-Entwicklungsmodell, das von Cloud-Anbietern und spezialisierter NVIDIA-Hardware dominiert wird, herausgefordert.
Das QVAC Fabric-Framework ermöglicht LoRA (Low-Rank Adaptation) Feinabstimmung und Inferenzbeschleunigung auf heterogener Consumer-Hardware, einschließlich:
Desktop-GPUs: AMD, Intel und NVIDIA
Apple-Ökosystem: Apple Silicon M-Chips und Bionic-Mobile-GPUs
Mobile-GPUs: Adreno (Samsung), Mali und andere
Diese breite Kompatibilität eliminiert die bisherige Notwendigkeit für Enterprise-NVIDIA-Systeme oder Cloud-Infrastruktur, die die KI-Entwicklung auf Organisationen mit spezialisierten Hardware-Budgets konzentriert haben.
Tether’s Engineering-Team demonstrierte erfolgreiche Feinabstimmung auf Flaggschiff-Smartphones mit folgenden Ergebnissen:
125M-Parameter-Modelle: Feinabstimmung auf Samsung Galaxy S25 (Adreno GPU) in etwa 10 Minuten für einen biomedizinischen Datensatz von ca. 300 Dokumenten (~18k Tokens)
1B-Parameter-Modelle: Feinabstimmung derselben biomedizinischen Daten in 1 Stunde 18 Minuten auf Samsung S25 und 1 Stunde 45 Minuten auf iPhone 16
Maximale Kapazität: Modelle bis zu 13 Milliarden Parametern wurden erfolgreich auf iPhone 16 feinabgestimmt, was die Fähigkeiten von Edge-Geräten deutlich über die üblichen Demonstrationen mit weniger als 3 Milliarden Parametern hinaus erweitert.
BitNet-Inferenz auf mobilen GPUs zeigt im Vergleich zu CPU-Baselines erhebliche Beschleunigungen:
Geschwindigkeitssteigerung: GPU-Leistung ist bei getesteten Geräten 2 bis 11 Mal schneller als CPU
Praktische Bedeutung: Mobile GPUs können nun Aufgaben unterstützen, die zuvor teure Spezialhardware oder Rechenzentren erforderten
Benchmarks zeigen signifikante Speicherersparnisse im Vergleich zu herkömmlichen Modellen:
BitNet-1B (TQ1_0): Verbraucht bis zu 77,8 % weniger VRAM als Gemma-3-1B (16-Bit)
Vergleich zu Qwen3-0.6B: 65,6 % weniger VRAM als die 16-Bit-Version
Diese Reduktionen gelten sowohl für Inferenz- als auch für LoRA-Feinabstimmungs-Workloads und schaffen bedeutenden Speicherplatz für größere Modelle und Personalisierungsprozesse auf Hardware, die zuvor als unzureichend galt.
Das Framework ermöglicht die Feinabstimmung von Modellen, die doppelt so groß sind wie Q4-nicht-BitNet-Modelle auf Edge-Geräten, was die überlegene Speichereffizienz der BitNet-Architektur demonstriert.
Tether-CEO Paolo Ardoino formulierte die Veröffentlichung im Rahmen einer Vision zugänglicher KI: „Intelligenz wird ein entscheidender Faktor für die Zukunft der Gesellschaft sein. Wenn das Training großer Sprachmodelle auf zentralisierter Infrastruktur basiert, stagniert Innovation, das Ökosystem wird fragil, und das gesellschaftliche Gleichgewicht ist gefährdet. Durch die Ermöglichung bedeutungsvoller Training auf Consumer-Hardware, einschließlich Smartphones, beweist Tether’s QVAC, dass fortschrittliche KI dezentralisiert, inklusiv und für alle empowernd sein kann.“
Die Effizienzgewinne machen föderiertes Lernen möglich, bei dem feinabgestimmte Updates auf verteilten Geräten trainiert und geteilt werden können, während sensible Nutzerdaten lokal bleiben. Dies verringert die Abhängigkeit von zentraler Infrastruktur und fördert die kollaborative Verbesserung von Modellen.
Durch die Reduzierung der Abhängigkeit von Cloud-Anbietern können Nutzer sensible Daten während des Feinabstimmens lokal auf ihren Geräten halten, was Datenschutzbedenken bei der Übertragung an zentrale Server adressiert.
Tether’s Veröffentlichung stellt das zentrale KI-Entwicklungsmodell, das von Hyperscalern und Cloud-Anbietern dominiert wird, direkt in Frage. Durch die Ermöglichung bedeutender KI-Arbeiten auf Consumer-Hardware positioniert sich das Unternehmen als Infrastruktur-Anbieter im Edge-AI-Stack, unabhängig von traditionellen Cloud-Rechtsordnungen.
Das Framework, inklusive Paper, Adapter, Benchmarks und plattformübergreifender Binärdateien, ist auf Hugging Face verfügbar. Dieser Open-Source-Ansatz soll QVAC als Standardweg für unabhängige Entwickler und kleine Labore etablieren, um KI auf Consumer-Hardware zu deployen und so kulturelle sowie technische Relevanz außerhalb traditioneller Regulierungsrahmen aufzubauen.
Die Veröffentlichung setzt die Expansion von Tether über die Ausgabe von Stablecoins hinaus fort, in kritische digitale Infrastruktur. Frühere QVAC-Initiativen umfassen den 41-Milliarden-Token Genesis I-Datensatz und den lokalen KI-Workbench. Das Unternehmen hat weitere Investitionen in dezentrale KI-Infrastruktur in den kommenden Wochen, Monaten und Jahren angekündigt.
Vollständige technische Dokumentation, inklusive Leistungsbenchmarks, Implementierungsdetails und plattformübergreifender Binärdateien, ist im Hugging Face-Blog verfügbar: „LoRA Fine-Tuning BitNet b1.58 LLMs auf heterogenen Edge-GPUs via QVAC Fabric.“
Tether beschreibt seine Mission als die Förderung von Freiheit, Transparenz und Innovation durch Technologie, die direkten Peer-to-Peer-Informationsaustausch ohne unnötige Zwischenhändler ermöglicht. Das Unternehmen strebt an, zentrale Modelle durch dezentrale Infrastruktur zu ersetzen, die auf Privatsphäre, Effizienz und Resilienz ausgelegt ist.
Das QVAC Fabric BitNet LoRA-Framework unterstützt Consumer-GPUs von AMD, Intel und NVIDIA; das Apple-Ökosystem inklusive Silicon M-Chips und Bionic-Mobile-GPUs; sowie mobile GPUs wie Adreno (Samsung), Mali und andere. Damit ist Feinabstimmung von KI auf Laptops, Desktops und Flaggschiff-Smartphones ohne spezielle Enterprise-Hardware möglich.
Laut Tether-Benchmarks läuft die GPU-basierte Inferenz auf Flaggschiff-Mobilgeräten zwischen 2 und 11 Mal schneller als die CPU-Baseline. Der Speicherverbrauch sinkt um bis zu 77,8 %, was größere Modelle innerhalb der gleichen Hardware-Beschränkungen ermöglicht.
Die Feinabstimmung eines 13-Milliarden-Parameter-Modells auf einem Smartphone stellt einen Quantensprung gegenüber typischen On-Device-KI-Demonstrationen dar, die meist auf Modelle unter 3 Milliarden Parametern beschränkt sind oder schwerere Workloads in die Cloud auslagern. Diese Fähigkeit deutet auf eine Zukunft hin, in der ernsthafte Modell-Personalisierung und domänenspezifische Anpassung lokal erfolgen können, ohne Nutzerdaten an zentrale Server zu schicken.