Stabile Diffusionsmodellreihe: Evolution, Architektur und Ökosystem

Zusammenfassung

Stable Diffusion umfasst eine Reihe offener (oder halboffener) Text-zu-Bild-Modelle, die von Stability AI und Mitarbeitern entwickelt wurden. Seine Entwicklung reicht von den ursprünglichen v1.x-Modellen (veröffentlicht im August 2022) über v2.x (Ende 2022), die großen SDXL-Modelle (Mitte bis Ende 2023) und die neuen transformatorbasierten SD3- und SD3.5-Modelle (angekündigt 2024). Jede Generation brachte neue technische Designs und Lizenzrichtlinien mit sich. Die Strategie von Stability AI verlagerte sich von vollständig offenen Veröffentlichungen zu geschlossenen „Community-Lizenz“-Veröffentlichungen mit Umsatzschwellen, insbesondere für SD3/3.5.

Verwandte Seiten:

Unternehmenskontext: Stability AI (gegründet 2020) war ein früher Unterstützer und Entwickler von Stable Diffusion. Das Unternehmen wuchs aufgrund des Erfolgs von Stability Diffusion schnell, verzeichnete in den Jahren 2023–24 höhere Runden und stand vor einem Führungswechsel (Gründer wurde ersetzt, Sean Parker trat dem Vorstand bei). Ende 2024 verfolgte Stability AI eine Unternehmensstrategie und führte umsatzbasierte Lizenzen ein, um sein Ökosystem zu monetarisieren.

Verfügbarkeit und Lizenzierung: Alle wichtigen Modelle werden über Hugging Face vertrieben (und einige über die eigenen Studios oder APIs von Stability AI), jedoch mit sich ändernden Bedingungen. Die v1.x- und SDXL-Modelle nutzen die CreativeML Open RAIL++-Lizenzierung (für die meisten Anwendungen kostenlos). Im Gegensatz dazu verwenden SD3- und SD3.5-Modelle eine neue Stability AI Community-Lizenz: kostenlos für Forschungszwecke, nichtkommerzielle Zwecke und kleine Unternehmen (Umsätze unter 1 Mio. US-Dollar), oberhalb dieses Schwellenwerts ist jedoch eine Unternehmenslizenz erforderlich. Die SD3/3.5-Kontrollpunkte sind eingezäunt auf Hugging Face: Benutzer müssen sich vor dem Herunterladen anmelden, die Bedingungen akzeptieren und Kontaktinformationen angeben (wie auf den Modellseiten dokumentiert). SDXL-Gewichte können weiterhin öffentlich heruntergeladen werden (mit Standard-Lizenz-Click-through). Es gibt Cloud-Integrationen: z.B. SD3.5 Large ist über Amazon Bedrock (AWS) und NVIDIA NIM verfügbar, vorbehaltlich der gleichen Gating-/Lizenzierung.

Technische Spezifikationen: Der wesentliche architektonische Wandel erfolgt von Diffusions-UNets zu Diffusionstransformatoren. Alle Modelle vor 3 (v1.x, v2.x, SDXL) sind latente Diffusionsmodelle: ein Pixelraum-Autoencoder (normalerweise 4-Kanal-Latent bei 8-fachem Downsampling), der einen UNet-Entrauscher speist. Sie verwenden den CLIP-Text-Encoder (v1.x: CLIP ViT-L/14; v2.x und SDXL: OpenCLIP ViT-H/14 und/oder CLIP ViT/L), um über Queraufmerksamkeit zu konditionieren. SDXL fügte einen zweiten Text-Encoder und einen kleineren „Refiner“ UNet zum Polieren hinzu. Im Gegensatz dazu sind SD3/3.5 Multimodale Diffusionstransformatoren. Sie verschlüsseln Text mit drei vorab trainierte Encoder (CLIP ViT/L, OpenCLIP ViT/G und ein großes T5) und Interleave-Modalitätstoken, wodurch ein bidirektionaler Fluss zwischen Text- und Bilddarstellungen erreicht wird. Wichtige Spezifikationen nach Version:

Abbildung: Latente Diffusionsarchitektur der frühen stabilen Diffusion (SD v1.x/2.x). Ein U-Net entrauscht ein 8-fach heruntergesampeltes Latent; Konditionierung (Textmerkmale) tritt über Queraufmerksamkeitsblöcke ein.

Veröffentlichungszeitplan und wichtige Ereignisse

Nachfolgend sind die wichtigsten Veröffentlichungen und Unternehmensereignisse zusammengefasst.

Zeitleistentabelle:

Datum Ereignis Details & Quelle
22.08.2022 SD 1.0 (v1.1)-Version Latent Diffusion UNet (CLIP), erste öffentliche Veröffentlichung. Demo gestartet.
2022-12 SD v2.0-Version Neue OpenCLIP-Encoder, 512/768-Modi, verfeinerter Datensatz, zusätzliche Tiefe, Inpaint-Varianten.
2023-07 SDXL 1.0-Version Großes UNet (2,6 B), Dual-Text-Encoder, Base+Refiner-Pipeline, 1024 Pixel.
2024-03 SD3 (MMDiT)-Papier Einführung eines Transformator-Backbones, gleichgerichteter Fluss; Quellcode/Modelle versprochen.
12.06.2024 SD3 Medium-Version Geschützte Veröffentlichung des Medium-Modells.
22.10.2024 SD3.5-Version SD3.5 Large & Turbo (4-stufig) veröffentlicht; 8B Parameter; geschlossene Verteilung.
2024-11 SD3.5 Mittlere Version SD3.5 Mittlerer Kontrollpunkt auf HF hinzugefügt.
2024-12 SD3.5 auf AWS und NVIDIA SD3.5 Large bereitgestellt auf Amazon Bedrock, NVIDIA NIM (mit Gating).
2025-05 SD3.5 TensorRT-Optimierung 2-fache Geschwindigkeit, 40 % weniger VRAM (11 GB) auf RTX-GPUs.
2025-XX Rechtliche Entscheidungen/Klagen Britisches Gericht entscheidet über SD-Modellgewichte nicht direkte rechtsverletzende Kopien; laufende US-Fälle.
(2016-2025) Firmenveranstaltungen Gründung (2020), Abgang von Emad (2024), CEO-/Vorstandswechsel, Finanzierung in Höhe von 101 Mio. USD (2023).

Verfügbarkeit, Gating und Lizenzierung

Der Vertrieb und die Lizenz jeder Modellgeneration sind unterschiedlich:

Cloud-Verfügbarkeit: Stability AI bietet SD3/3.5 auf seiner API und „Stable Assistant“-Produkte an, und Partner haben diese integriert (z. B. SD3.5 Large ist ein Modell auf AWS Bedrock und Nvidia NIM). In allen Fällen gilt das gleiche Gating/die gleiche Lizenz. Eine Folge davon ist, dass sich viele Community-Skripte geändert haben: z.B. Die Diffusordokumente von HuggingFace warnen davor „Das Modell ist eingezäunt … Sie müssen zuerst zur Seite „Stable Diffusion 3.5 Large Hugging Face“ gehen, das Formular ausfüllen und die Einsperrung akzeptieren. Dann melden Sie sich mit an huggingface-cli.“.

Offenheitsvergleich: V1.x, V2.x und SDXL hatten vollständig öffentliche Gewichte und offene Lizenzen (RAIL++), während SD3/3.5 im Quellcode „offen“ sind, aber im Zugriff eingeschränkt sind und einer umsatzbeschränkten Lizenz unterliegen. Alle Hauptversionen sind auf Hugging Face (mit erforderlichem Gating) und GitHub von Stability AI für Code verfügbar. Der SD3.5-Start stellte auch ein „nur Inferenz“-GitHub-Repo (Stability-AI/sd3.5) bereit, das das Herunterladen der Gated-Gewichte automatisiert.

Technische Spezifikationen nach Version

Die folgende Tabelle fasst die wichtigsten technischen Spezifikationen (Architektur, Auflösung, Text-Encoder usw.) zusammen und stellt die einzelnen Hauptversionen von Stable Diffusion gegenüber. Nicht spezifizierte oder nicht veröffentlichte Zahlen sind mit „(n.d.)“ gekennzeichnet.

Version Architektur / Encoder Kond. Textkodierer Latent/VAE (Kanäle, Downsampling) Native Res. / Anleitung Trainingsdaten (Größe/Filter) Lizenz/Zugriff
SD 1.x (v1.4/1.5) UNet (860 Mio. Conv.-Ebenen) CLIP ViT-L/14 (768-dim) 4 Kanäle, 8× Downsampling 512×512 LAION-5B Englisch-Untergruppe, gefiltert nach ästhetischer Bewertung OpenRAIL (offen); HF-Gewichte offen
SD 2.0/2.1 UNet (ähnlicher Maßstab) OpenCLIP ViT-H/14 (1024-dim) 4 Kanäle, 8× Downsampling 512/768 LAION-5B hochästhetische Teilmenge, NSFW-gefiltert OpenRAIL++ (offen, HF-Gated akzeptiert)
SDXL 1.0 UNet (≈2,6 B Konv.-Gewichte) CLIP ViT/L + OpenCLIP ViT/G 4 Kanäle, 8× Downsampling (in latenter Form) 1024×1024 Über 540 Millionen Bilder (Multi-Aspekt-LAION-Teilmenge, Ästhetik >4,3) (privat) OpenRAIL++ (offen)
SDXL-Refiner UNet-Verfeinerungsphase (verwendet die gleichen Encoder) - 1024×1024 Auf Gesichter und Details geschult (intern) -
SD3-Medium MMDiT-Transformator (~2–3B?) CLIP ViT/L, OpenCLIP ViT/G, T5-XXL 4 Kanäle, 8× Downsampling ~1024×1024 (geführt) 1.0B Pretrain (Synth + Public) + 30M Ästhetik + 3M Präferenz (Stability.ai) Community-Lizenz (gated)
SD3,5 Groß MMDiT-Transformator (8.1B) CLIP ViT/L, OpenCLIP ViT/G, T5-XXL 4 Kanäle, 8× Downsampling 1024×1024 (Nicht bekannt gegeben; vermutlich noch größer + vordefiniert) Community-Lizenz (gated)
SD3.5 Groß (Turbo) Gleiches + Destillation HINZUFÜGEN Dasselbe Dasselbe 1024×1024 (Destillierte Version für mehr Geschwindigkeit) Community-Lizenz (gated)
SD3.5 Mittel MMDiT-X Transformer (n.d.) CLIP/L, OpenCLIP/G, T5-XXL 4 Kanäle, 8× Downsampling 1024×1024? (Nicht bekannt gegeben) Community-Lizenz (gated)

Jedes Modell verwendet klassifikatorfreie Führung standardmäßig. SD v1/v2-Modelle beinhalten eine teilweise Konditionierung (Abbruch) während des Trainings; SD3/3.5 verwenden kombinierten Verlust mit paarweise unbedingten Beispielen. Das Diagramm der stabilen Diffusion oben zeigt den latenten Diffusionsfluss v1/v2/XL.

Rechen- und Inferenzkosten

Größere Modelle erfordern deutlich mehr Rechenleistung. Grobe Schätzungen:

Generationsfluss: Aufforderungstext + anfängliches latentes Rauschen

Text-Encoder (CLIP/T5) -> MMDiT-Transformer -> VAE-Decoder -> Ausgabebild

Tabelle: Vor-/Nachteile und Kosten nach Version

Modell Vorteile (Qualität, Funktionen) Nachteile (Kosten, Probleme) GPU-VRAM (@32 Schritte, ~1024px) Notizen
SD v1.5 Kleinste; sehr schnell; Umfangreiche Feinabstimmungsunterstützung Geringere Texttreue, kleine Auflösung ~7 GB (8 GB GPUs sind ausreichend)
SD v2.1 Bessere nichtmenschliche Details; Inpainting-/Tiefenmodi hinzugefügt 2x VRAM für 768px-Modus; Leute, die Vorbehalte machen ~8-10 GB (768)
SDXL 1.0 Höchste Detailtreue, natürliche Komposition; Refiner verbessert Gesichter Sehr hoher Ressourcenbedarf; Refiner verdoppelt die Belastung; komplexe Verteilung ~10–12 GB (Basis); +10 GB (Refiner) Unsichtbares Wasserzeichen enthalten
SD3-Medium Großer Sprung in der Pünktlichkeit und Typografie; verschlüsseltes Wissen über T5 Hoher Speicher durch T5; langsamer pro Schritt; Gating macht den Zugriff weniger trivial ~12+ GB (variiert je nach Charge) Optionale Variante ohne T5, FP8 T5 usw.
SD3,5 Groß Modernste Qualität; destillierter Turbo für Geschwindigkeit Extrem hoher Ressourcenbedarf; Gating/Lizenzierung; kein eingebauter Refiner ~19 GB Basiswert; 11 GB mit TensorRT Turbo (4 Stufen) vorhanden, aber keine Anleitung; immer noch eingezäunt
SD3.5 Turbo Nahezu sofortige Generierung (4–8 Schritte) Niedrigere Führung (nicht klassifikatorfrei) im Vergleich zur Basis ~11 GB (FP8) Destilliert
SD3.5 Mittel (erwartet ähnlich wie SD3 Medium) (erwartet ähnlich wie Medium) (unbekannt) Neue Architekturverbesserungen (MMDiT-X)

Nicht spezifizierte Parameter: Die genaue Größe der „mittleren“ Varianten wird nicht öffentlich angegeben. VRAM-Hinweise stammen aus offiziellen Benchmarks oder empfohlenen Setups.

Ökosystem, Akzeptanz und Anwendungsfälle

Die Wirkung von Stable Diffusion ist enorm. Open-Source-Code und -Gewichte haben unzählige Erweiterungen vorangetrieben. Bemerkenswerte Ökosystemkomponenten:

Metrisch Wert
SDXL-Basis-Downloads 2.062.317
SD3.5 Medium-Downloads 131.993
AUTOMATIK1111 Sterne 161.000
ComfyUI-Sterne 104.000
Diffusoren Sterne 32.800

Der Datensatz und die Ergebnisse von Stable Diffusion waren Gegenstand intensiver Debatten:

Praktische Anleitung für Benutzer

Zugang: Um geschlossene Modelle (SD3/3.5) herunterzuladen, erstellen Sie ein Hugging Face-Konto und stimmen Sie der Lizenz auf der Modellseite zu. Dann verwenden huggingface-cli login bevor Sie eine Pipeline ausführen. Das Diffusor-Beispiel für SD3.5 zeigt genau diesen Schritt. Stability AI stellt ein GitHub-Skript (Stability-AI/sd3.5) zur Verfügung, um das Abrufen der erforderlichen Dateien zu automatisieren.

Schlussfolgerung: Verwenden Sie gemischte Präzision (fp16 oder bf16) und Frameworks wie Torch 2.0 mit torch.compile oder TensorRT für Geschwindigkeit. Beispielsweise wird die SD3.5 Large-Inferenz in bfloat16 (der ursprünglich veröffentlichten Genauigkeit) demonstriert. Verwenden Sie klassifikatorfreie Richtwerte von ~4–7 für SD3-Modelle (Kontrast gegenüber ~7–15 in SD1/2). Für Hardware mit begrenztem VRAM: Laden Sie jeweils ein Modell (laden Sie z. B. Refiner nicht standardmäßig mit SDXL) oder verwenden Sie Offloading. Auf 8–12-GB-GPUs kann SDXL mit reduzierter Stapelgröße ausgeführt werden, während SD3.5 Large ohne Optimierung normalerweise etwa 16 GB oder mehr benötigt.

Feinabstimmung und Plugins: Die Feinabstimmung von LoRA funktioniert mit jeder Version, aber LoRAs sind nicht zwischen Architekturtypen kompatibel (z. B. lässt sich ein LoRA der Version 1.5 nicht in SD3 integrieren). ControlNet erfordert separate Modellvarianten; StabilityAI hat SD3.5-spezifische Kontrollnetze (TensorRT-optimiert) auf HF veröffentlicht. Es gibt viele Community-Adapter (LoRAs, Dreambooth-Modelle), wie in den HF-Modellbäumen zu sehen ist. Stellen Sie immer sicher, dass LoRAs oder ControlNets mit der Basismodellversion übereinstimmen.

Alle oben genannten Daten stammen aus offiziellen Quellen (Modellkarten, Papiere) oder seriösen Analysen. Die Figuren sind mit „ohne Datum“ gekennzeichnet. wurden in den Quellen nicht angegeben. Wir zitieren Trainingsdaten und VRAM aus Ankündigungen und Artikeln zur Stabilitäts-KI; Wo nicht öffentlich, vermerken wir es. Dieser Schnappschuss entspricht dem Stand vom 24. Februar 2026.

Share This Page