Chinas Z-Image stürzt Flux als König der KI-Kunst ab – und dein Kartoffel-PC kann es ausführen

Decrypt

Kurz gesagt

  • Das neue Z-Image-Modell läuft mit 6 GB VRAM—die Hardware Flux2 kann nicht einmal mithalten.
  • Z-Image hat bereits über 200 Community-Ressourcen und über tausend positive Bewertungen im Vergleich zu Flux2's 157 Bewertungen.
  • Es wird als das beste Open-Source-Modell bis heute eingestuft.

Decrypts Kunst-, Mode- und Unterhaltungszentrum.


Entdecken Sie SCENE

Alibaba's Tongyi Lab Z-Image Turbo, ein 6-Milliarden-Parameter-Bildgenerierungsmodell, wurde letzte Woche mit einem einfachen Versprechen veröffentlicht: erstklassige Qualität auf Hardware, die Sie tatsächlich besitzen.

Dieses Versprechen kommt hart an. Nach Tagen nach seiner Veröffentlichung hatten Entwickler bereits LoRAs - maßgeschneiderte, feinabgestimmte Anpassungen - in einem Tempo produziert, das bereits Flux2, den vielgepriesenen Nachfolger des äußerst beliebten Flux-Modells von Black Forest Labs, übertrifft.

Der Partytrick von Z-Image ist die Effizienz. Während Konkurrenten wie Flux2 mindestens 24 GB VRAM und bis zu 90 GB für das vollständige Modell benötigen, läuft Z-Image auf quantisierten Setups mit nur 6 GB.

Das ist das Gebiet der RTX 2060 – im Grunde Hardware aus dem Jahr 2019. Je nach Auflösung können Benutzer Bilder in nur 30 Sekunden generieren.

Für Hobbyisten und unabhängige Kreative ist dies eine Tür, die zuvor verschlossen war.

Die KI-Kunstgemeinschaft lobte das Modell schnell.

“Das ist es, was SD3 sein sollte,” schrieb der Nutzer Saruhey auf CivitAI, dem weltweit größten Repository für Open-Source-KI-Kunstwerkzeuge. “Die Einhaltung der Eingabeaufforderung ist ziemlich exquisit… ein Modell, das Text sofort verarbeiten kann, ist bahnbrechend. Dieses Ding hat dieselbe, wenn nicht sogar bessere, Kraft als Flux, das für sich allein schwarze Magie ist. Die Chinesen sind der KI-Entwicklung weit voraus.”

Z-Image Turbo ist seit letzten Donnerstag auf Civitai verfügbar und hat bereits über 1.200 positive Bewertungen erhalten. Zum Kontext: Flux2—das ein paar Tage vor Z-Image veröffentlicht wurde—hat 157.

Das Modell ist vollständig unzensiert von Grund auf. Prominente, fiktive Charaktere und ja, explizite Inhalte sind alle möglich.

Stand heute gibt es etwa 200 Ressourcen (finetunes, LoRAs, Workflows) für das Modell allein auf Civitai, von denen viele NSFW sind.

Auf Reddit testete der Nutzer Regular-Forever5876 die Grenzen des Modells mit Gore-Prompts und war verblüfft: “Heiliger Strohsack!!! Dieses Ding versteht Gore AF! Es generiert es fehlerfrei,” schrieben sie.

Das technische Geheimnis hinter Z-Image Turbo ist seine S3-DiT-Architektur – ein Single-Stream-Transformer, der Text- und Bilddaten von Anfang an gemeinsam verarbeitet, anstatt sie später zu kombinieren. Diese enge Integration, kombiniert mit aggressiven Destillationstechniken, ermöglicht es dem Modell, Qualitätsbenchmarks zu erreichen, die normalerweise Modelle erfordern, die fünfmal so groß sind.

Das Modell testen

Wir haben Z-Image Turbo umfassenden Tests in mehreren Dimensionen unterzogen. Hier ist, was wir herausgefunden haben.

Geschwindigkeit: SDXL Tempo, Next-Gen Qualität

Nach neun Schritten erzeugt Z-Image Turbo Bilder mit ungefähr der gleichen Geschwindigkeit wie SDXL, mit den üblichen 30 Schritten - ein Modell, das 2023 veröffentlicht wurde.

Der Unterschied besteht darin, dass die Ausgabequalität von Z-Image mit der von Flux übereinstimmt oder diese übertrifft. Auf einem Laptop mit einer RTX 2060 GPU mit 6 GB VRAM benötigte ein Bild 34 Sekunden.

Im Vergleich dazu benötigt Flux2 ungefähr zehnmal so lange, um ein vergleichbares Bild zu erzeugen.

Realismus: Der neue Maßstab

Z-Image Turbo ist das fotorealistischste Open-Source-Modell, das derzeit für Verbrauchermaterialien verfügbar ist. Es schlägt Flux2 eindeutig und das Basis-Destillationsmodell übertrifft dedizierte Realismus-Feinabstimmungen von Flux.

Haut- und Haartextur sehen detailliert und natürlich aus. Das berüchtigte “Flux-Kinn” und “plastische Haut” sind größtenteils verschwunden. Die Körperproportionen sind durchweg solide, und LoRAs, die den Realismus noch weiter verbessern, sind bereits im Umlauf.

Textgenerierung: Endlich funktionieren Worte

Hier ist der Z-Image wirklich in seinem Element. Es ist das beste Open-Source-Modell für die Generierung von Text in Bildern und erreicht die gleiche Leistung wie Googles Nanobanana und Seedream—Modelle, die den aktuellen Standard setzen.

Für Mandarin-Sprecher ist Z-Image die offensichtliche Wahl. Es versteht Chinesisch nativ und gibt die Zeichen korrekt wieder.

Profi-Tipp: Einige Benutzer haben berichtet, dass das Auffordern in Mandarin dem Modell tatsächlich hilft, bessere Ergebnisse zu erzielen, und die Entwickler haben sogar einen “Prompt-Verbesserer” in Mandarin veröffentlicht.

Der englische Text ist ebenso stark, mit einer Ausnahme: ungewöhnliche lange Wörter wie “dezentralisiert” können es ins Stolpern bringen - eine Einschränkung, die auch Nanobanana teilt.

Räumliches Bewusstsein und schnelle Einhaltung: Außergewöhnlich

Die Einhaltung der Vorgaben von Z-Image ist herausragend. Es versteht Stil, räumliche Beziehungen, Positionen und Proportionen mit bemerkenswerter Präzision.

Nehmen Sie zum Beispiel diesen Hinweis:

Ein Hund mit einem roten Hut, der auf einem Fernseher steht, auf dem die Worte “Decrypt 是世界上最好的加密货币与人工智能媒体网站” angezeigt werden. Links steht eine blonde Frau in einem Business-Anzug, die eine Münze hält; rechts steht ein Roboter auf einer Erste-Hilfe-Box, und hinter der Box steht eine grüne Pyramide. Die gesamte Szenerie ist surreal. Eine Katze steht kopfüber auf einem weißen Fußball, neben dem Hund. Ein Astronaut von der NASA hält ein Schild mit der Aufschrift “Emerge” und steht neben dem Roboter.

Wie auffällig ist, hatte es nur einen Typo, wahrscheinlich wegen der Sprachmischung, aber abgesehen davon sind alle Elemente genau dargestellt.

Das Prompt-Bleeding ist minimal, und komplexe Szenen mit mehreren Subjekten bleiben kohärent. Es schlägt Flux in diesem Punkt und hält sich gegen Nanobanana.

Was kommt als Nächstes?

Alibaba plant, zwei weitere Varianten herauszubringen: Z-Image-Base für Feinabstimmungen und Z-Image-Edit für anweisungsbasierte Änderungen. Wenn sie mit dem gleichen Feinschliff wie Turbo erscheinen, wird sich die Open-Source-Landschaft dramatisch verändern.

Im Moment ist das Urteil der Community klar: Z-Image hat Flux' Krone übernommen, ähnlich wie Flux einst Stable Diffusion entthront hat.

Der wahre Gewinner wird derjenige sein, der die meisten Entwickler anzieht, um darauf aufzubauen.

Aber wenn Sie uns fragen würden, ja, Z-Image ist unser derzeitiges Lieblingsmodell für den Heimgebrauch, das Open Source ist.

Original anzeigen
Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Kommentieren
0/400
Keine Kommentare
Handeln Sie jederzeit und überall mit Kryptowährungen
qrCode
Scannen, um die Gate App herunterzuladen
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)