Stabile Diffusionsmodellreihe: Evolution, Architektur und Ökosystem

Zusammenfassung

Stable Diffusion umfasst eine Reihe offener (oder halboffener) Text-zu-Bild-Modelle, die von Stability AI und Mitarbeitern entwickelt wurden. Seine Entwicklung reicht von den ursprünglichen v1.x-Modellen (veröffentlicht im August 2022) über v2.x (Ende 2022), die großen SDXL-Modelle (Mitte bis Ende 2023) und die neuen transformatorbasierten SD3- und SD3.5-Modelle (angekündigt 2024). Jede Generation brachte neue technische Designs und Lizenzrichtlinien mit sich. Die Strategie von Stability AI verlagerte sich von vollständig offenen Veröffentlichungen zu geschlossenen „Community-Lizenz“-Veröffentlichungen mit Umsatzschwellen, insbesondere für SD3/3.5.

Verwandte Seiten:

Unternehmenskontext: Stability AI (gegründet 2020) war ein früher Unterstützer und Entwickler von Stable Diffusion. Das Unternehmen wuchs aufgrund des Erfolgs von Stability Diffusion schnell, verzeichnete in den Jahren 2023–24 höhere Runden und stand vor einem Führungswechsel (Gründer wurde ersetzt, Sean Parker trat dem Vorstand bei). Ende 2024 verfolgte Stability AI eine Unternehmensstrategie und führte umsatzbasierte Lizenzen ein, um sein Ökosystem zu monetarisieren.

Verfügbarkeit und Lizenzierung: Alle wichtigen Modelle werden über Hugging Face vertrieben (und einige über die eigenen Studios oder APIs von Stability AI), jedoch mit sich ändernden Bedingungen. Die v1.x- und SDXL-Modelle nutzen die CreativeML Open RAIL++-Lizenzierung (für die meisten Anwendungen kostenlos). Im Gegensatz dazu verwenden SD3- und SD3.5-Modelle eine neue Stability AI Community-Lizenz: kostenlos für Forschungszwecke, nichtkommerzielle Zwecke und kleine Unternehmen (Umsätze unter 1 Mio. US-Dollar), oberhalb dieses Schwellenwerts ist jedoch eine Unternehmenslizenz erforderlich. Die SD3/3.5-Kontrollpunkte sind eingezäunt auf Hugging Face: Benutzer müssen sich vor dem Herunterladen anmelden, die Bedingungen akzeptieren und Kontaktinformationen angeben (wie auf den Modellseiten dokumentiert). SDXL-Gewichte können weiterhin öffentlich heruntergeladen werden (mit Standard-Lizenz-Click-through). Es gibt Cloud-Integrationen: z.B. SD3.5 Large ist über Amazon Bedrock (AWS) und NVIDIA NIM verfügbar, vorbehaltlich der gleichen Gating-/Lizenzierung.

Technische Spezifikationen: Der wesentliche architektonische Wandel erfolgt von Diffusions-UNets zu Diffusionstransformatoren. Alle Modelle vor 3 (v1.x, v2.x, SDXL) sind latente Diffusionsmodelle: ein Pixelraum-Autoencoder (normalerweise 4-Kanal-Latent bei 8-fachem Downsampling), der einen UNet-Entrauscher speist. Sie verwenden den CLIP-Text-Encoder (v1.x: CLIP ViT-L/14; v2.x und SDXL: OpenCLIP ViT-H/14 und/oder CLIP ViT/L), um über Queraufmerksamkeit zu konditionieren. SDXL fügte einen zweiten Text-Encoder und einen kleineren „Refiner“ UNet zum Polieren hinzu. Im Gegensatz dazu sind SD3/3.5 Multimodale Diffusionstransformatoren. Sie verschlüsseln Text mit drei vorab trainierte Encoder (CLIP ViT/L, OpenCLIP ViT/G und ein großes T5) und Interleave-Modalitätstoken, wodurch ein bidirektionaler Fluss zwischen Text- und Bilddarstellungen erreicht wird. Wichtige Spezifikationen nach Version:

SD v1.x: 860M–890M Parameter UNet (pro Zeile, impliziert durch 23-schichtiges convUNet in LDM). Textkodierer: CLIP ViT-L/14. Latente Kanäle 4, Downsampling 8×. Trainiert auf der englischen Teilmenge LAION-2B mit ästhetischem Bewertungsfilter. Es wird eine klassifikatorfreie Führung verwendet. VRAM: ~7–8 GB für 512×512 bei ~50 Schritten.
SD v2.x (512/768): ~860M Parameter UNet (ähnlicher Maßstab). Text-Encoder: OpenCLIP ViT-H/14 (1024-Dim-Kontext). Latentes Downsampling 8×. Trainiert auf gefiltertem LAION 5B (Ästhetik ≥ 5, expliziter NSFW-Filter) mit einem V-Ziel. Auflösung: native 512- und 768-Varianten. Zusätzliche Varianten: Depth2img, Inpainting, Upscaling (mit eigenen Konditionierungskanälen). VRAM: 2–3× höher für 768-Modus (aufgrund der 1,5× linearen Dimension).
SDXL (v1.0, v1.0+Refiner): 2,6B Parameterkern UNet (ca. 3× größer als SD v2). Dual-Text-Encoder: OpenCLIP ViT/G und CLIP ViT/L (pro Modellkarte). Native Auflösung 1024×1024; Ausgänge „im latenten Raum“ mit 8-fachem Downsampling, 4-Kanal-Latents. Trainingsdatensatz: proprietärer Multi-Aspekt-Satz (von LAION 5B abgeleitet) mit >540 Mio. HQ-Bildern, Ästhetik >4,3 (im Bericht heißt es „massiver Korpus“, genaue Zusammensetzung nicht bekannt gegeben). SDXL verwendet zweistufige Diffusion: ein Basis-UNet, dann ein separates „Refiner“-UNet. Die Token-Konditionierung umfasst die Originalbildgröße und Zuschnittkoordinaten (Mikrokonditionierung). VRAM: sehr groß; Base+Refiner werden gleichzeitig ca. 12–20 GB geladen, typisch, also Offloading oder TensorRT verwenden und Optimierungen kompilieren. In der Software wird standardmäßig ein unsichtbares Wasserzeichen angewendet.
SD3-Medium: Stellt das MMDiT-Backbone vor. Die Checkpoint-Größe wird nicht explizit angegeben (Stabilitäts-KI-Papiere lagen im Bereich von 450M–8B und implizierten Mittel ≈2–3B?), aber ~2B-Parameter sind plausibel. Verwendet drei feste Encoder: CLIP ViT/L, OpenCLIP ViT/G und T5-XXL mit einem Vokabular von 50.000. Latentes Downsampling 8×, VAE-Kanäle 4. Trainingsdaten: 1,0 Milliarden öffentliche + synthetische Bilder für die Erstschulung, feinabgestimmt auf 30 Millionen hochästhetische Bilder und 3 Millionen menschliche Vorlieben (QA-Paare). Text/Video: keine separate Verfeinerungsstufe; Qualität ist Single-Pass. VRAM: mittelhoch. Benutzer können den T5-Encoder weglassen oder eine FP8-Version verwenden, um Speicher zu sparen (Verpackungsvarianten im Lieferumfang enthalten).
SD3.5 Groß: ~8,1B Parameter (Ankündigung). Gleiches Dreifach-Encoder-Schema mit QK-Normalisierung und doppelter Aufmerksamkeit in Transformatoren. Kein Raffinierer; Eine destillierte „Turbo“-Version bietet eine 4-stufige Schlussfolgerung. Trainingsdaten nicht detailliert. Auflösung 1024×1024 (1 Megapixel) Anleitung. VRAM: sehr hoch (19 GB Basislinie, reduziert auf ~11 GB mit TensorRT FP8).
SD3.5-Medium: Wird als MMDiT-X bezeichnet (mit Dual-Attention-Layern in den ersten 12 Blöcken). Parameteranzahl nicht bekannt gegeben; wahrscheinlich 2–3B. Ansonsten ähnlich wie SD3 Medium. TensorRT-Optimierungen führen zu einer etwa 1,7-fachen Beschleunigung (VRAM-Zahlen nicht angegeben).

Abbildung: Latente Diffusionsarchitektur der frühen stabilen Diffusion (SD v1.x/2.x). Ein U-Net entrauscht ein 8-fach heruntergesampeltes Latent; Konditionierung (Textmerkmale) tritt über Queraufmerksamkeitsblöcke ein.

Veröffentlichungszeitplan und wichtige Ereignisse

Nachfolgend sind die wichtigsten Veröffentlichungen und Unternehmensereignisse zusammengefasst.

Zeitleistentabelle:

Datum	Ereignis	Details & Quelle
22.08.2022	SD 1.0 (v1.1)-Version	Latent Diffusion UNet (CLIP), erste öffentliche Veröffentlichung. Demo gestartet.
2022-12	SD v2.0-Version	Neue OpenCLIP-Encoder, 512/768-Modi, verfeinerter Datensatz, zusätzliche Tiefe, Inpaint-Varianten.
2023-07	SDXL 1.0-Version	Großes UNet (2,6 B), Dual-Text-Encoder, Base+Refiner-Pipeline, 1024 Pixel.
2024-03	SD3 (MMDiT)-Papier	Einführung eines Transformator-Backbones, gleichgerichteter Fluss; Quellcode/Modelle versprochen.
12.06.2024	SD3 Medium-Version	Geschützte Veröffentlichung des Medium-Modells.
22.10.2024	SD3.5-Version	SD3.5 Large & Turbo (4-stufig) veröffentlicht; 8B Parameter; geschlossene Verteilung.
2024-11	SD3.5 Mittlere Version	SD3.5 Mittlerer Kontrollpunkt auf HF hinzugefügt.
2024-12	SD3.5 auf AWS und NVIDIA	SD3.5 Large bereitgestellt auf Amazon Bedrock, NVIDIA NIM (mit Gating).
2025-05	SD3.5 TensorRT-Optimierung	2-fache Geschwindigkeit, 40 % weniger VRAM (11 GB) auf RTX-GPUs.
2025-XX	Rechtliche Entscheidungen/Klagen	Britisches Gericht entscheidet über SD-Modellgewichte nicht direkte rechtsverletzende Kopien; laufende US-Fälle.
(2016-2025)	Firmenveranstaltungen	Gründung (2020), Abgang von Emad (2024), CEO-/Vorstandswechsel, Finanzierung in Höhe von 101 Mio. USD (2023).

Verfügbarkeit, Gating und Lizenzierung

Der Vertrieb und die Lizenz jeder Modellgeneration sind unterschiedlich:

SD v1.x: Gewichte wurden auf Hugging Face unter der CreativeML Open RAIL-M-Lizenz (später als RAIL++ bezeichnet) offen veröffentlicht. Kein Tor außer der Zustimmung zur Lizenz. Der Code war auf GitHub geöffnet.
SD v2.x: Ebenso offener Code mit einer aktualisierten OpenRAIL++-Lizenz. Für das HF-Gewichts-Repository müssen die Lizenzbedingungen akzeptiert werden (OpenRAIL+). Es gibt kein Kontakt-Info-Gate, aber Benutzer müssen ein Kästchen für die Lizenz ankreuzen.
SDXL 1.0: Offene Veröffentlichung unter CreativeML Open RAIL++. Download von Hugging Face Weights ohne zusätzliches Gating (nur Lizenz-Click-through). Das GitHub-Repo „generative-models“ stellte VAE und Beispielcode bereit.
SD3 und SD3.5: Gewichte sind eingezäunt auf Hugging Face. Auf den Modellseiten wird ausdrücklich angegeben, dass sich Benutzer vor dem Herunterladen anmelden, ein Lizenzannahmeformular ausfüllen und Kontaktinformationen angeben müssen. Die zugrunde liegende Lizenz ist die im Juli 2024 eingeführte Stability AI Community License, die die kostenlose Nutzung für Forschungszwecke, nichtkommerzielle Zwecke und „qualifizierte kleine kommerzielle“ Nutzung (Umsatz < 1 Mio. USD) ermöglicht und darüber hinaus eine Unternehmenslizenz erfordert. Dabei handelt es sich praktisch um eine umsatzsteigernde Lizenz. Die Modellkarten verweisen auf diesen Schwellenwert und auf die Notwendigkeit, sich für die Verwendung auf höherer Ebene an Stability AI zu wenden.

Cloud-Verfügbarkeit: Stability AI bietet SD3/3.5 auf seiner API und „Stable Assistant“-Produkte an, und Partner haben diese integriert (z. B. SD3.5 Large ist ein Modell auf AWS Bedrock und Nvidia NIM). In allen Fällen gilt das gleiche Gating/die gleiche Lizenz. Eine Folge davon ist, dass sich viele Community-Skripte geändert haben: z.B. Die Diffusordokumente von HuggingFace warnen davor „Das Modell ist eingezäunt … Sie müssen zuerst zur Seite „Stable Diffusion 3.5 Large Hugging Face“ gehen, das Formular ausfüllen und die Einsperrung akzeptieren. Dann melden Sie sich mit an huggingface-cli.“.

Offenheitsvergleich: V1.x, V2.x und SDXL hatten vollständig öffentliche Gewichte und offene Lizenzen (RAIL++), während SD3/3.5 im Quellcode „offen“ sind, aber im Zugriff eingeschränkt sind und einer umsatzbeschränkten Lizenz unterliegen. Alle Hauptversionen sind auf Hugging Face (mit erforderlichem Gating) und GitHub von Stability AI für Code verfügbar. Der SD3.5-Start stellte auch ein „nur Inferenz“-GitHub-Repo (Stability-AI/sd3.5) bereit, das das Herunterladen der Gated-Gewichte automatisiert.

Technische Spezifikationen nach Version

Die folgende Tabelle fasst die wichtigsten technischen Spezifikationen (Architektur, Auflösung, Text-Encoder usw.) zusammen und stellt die einzelnen Hauptversionen von Stable Diffusion gegenüber. Nicht spezifizierte oder nicht veröffentlichte Zahlen sind mit „(n.d.)“ gekennzeichnet.

Version	Architektur / Encoder	Kond. Textkodierer	Latent/VAE (Kanäle, Downsampling)	Native Res. / Anleitung	Trainingsdaten (Größe/Filter)	Lizenz/Zugriff
SD 1.x (v1.4/1.5)	UNet (860 Mio. Conv.-Ebenen)	CLIP ViT-L/14 (768-dim)	4 Kanäle, 8× Downsampling	512×512	LAION-5B Englisch-Untergruppe, gefiltert nach ästhetischer Bewertung	OpenRAIL (offen); HF-Gewichte offen
SD 2.0/2.1	UNet (ähnlicher Maßstab)	OpenCLIP ViT-H/14 (1024-dim)	4 Kanäle, 8× Downsampling	512/768	LAION-5B hochästhetische Teilmenge, NSFW-gefiltert	OpenRAIL++ (offen, HF-Gated akzeptiert)
SDXL 1.0	UNet (≈2,6 B Konv.-Gewichte)	CLIP ViT/L + OpenCLIP ViT/G	4 Kanäle, 8× Downsampling (in latenter Form)	1024×1024	Über 540 Millionen Bilder (Multi-Aspekt-LAION-Teilmenge, Ästhetik >4,3) (privat)	OpenRAIL++ (offen)
SDXL-Refiner	UNet-Verfeinerungsphase	(verwendet die gleichen Encoder)	-	1024×1024	Auf Gesichter und Details geschult (intern)	-
SD3-Medium	MMDiT-Transformator (~2–3B?)	CLIP ViT/L, OpenCLIP ViT/G, T5-XXL	4 Kanäle, 8× Downsampling	~1024×1024 (geführt)	1.0B Pretrain (Synth + Public) + 30M Ästhetik + 3M Präferenz (Stability.ai)	Community-Lizenz (gated)
SD3,5 Groß	MMDiT-Transformator (8.1B)	CLIP ViT/L, OpenCLIP ViT/G, T5-XXL	4 Kanäle, 8× Downsampling	1024×1024	(Nicht bekannt gegeben; vermutlich noch größer + vordefiniert)	Community-Lizenz (gated)
SD3.5 Groß (Turbo)	Gleiches + Destillation HINZUFÜGEN	Dasselbe	Dasselbe	1024×1024	(Destillierte Version für mehr Geschwindigkeit)	Community-Lizenz (gated)
SD3.5 Mittel	MMDiT-X Transformer (n.d.)	CLIP/L, OpenCLIP/G, T5-XXL	4 Kanäle, 8× Downsampling	1024×1024?	(Nicht bekannt gegeben)	Community-Lizenz (gated)

Jedes Modell verwendet klassifikatorfreie Führung standardmäßig. SD v1/v2-Modelle beinhalten eine teilweise Konditionierung (Abbruch) während des Trainings; SD3/3.5 verwenden kombinierten Verlust mit paarweise unbedingten Beispielen. Das Diagramm der stabilen Diffusion oben zeigt den latenten Diffusionsfluss v1/v2/XL.

Rechen- und Inferenzkosten

Größere Modelle erfordern deutlich mehr Rechenleistung. Grobe Schätzungen:

SD v1.5: Ein 512×512-Bild erfordert etwa 50 Diffusionsschritte. Mit einem 860M-Parameter-UNet auf einem 8×8-Latent-Raster (64×64-Raster) ist dies auf einer 6–8-GB-GPU mit reduzierter Geschwindigkeit möglich.
SDXL 1.0: 1024×1024-Generierung (~128×128 latent) und ein 2,6B-UNet machen die Inferenz pro Schritt etwa 10-mal schwerer. Für den gemeinsamen Betrieb von Basis und Refiner sind ≥10–12 GB VRAM bei 28–50 Schritten erforderlich. Benutzer laden häufig TensorRT/Quantization herunter oder verwenden es (NVIDIA meldet einen Speicherausfall von 40 %).
SD3,5 Groß: 1024×1024, 8B Parameter. Offizielle Tests: ~19 GB VRAM für Basismodell bei 32 Schritten; TensorRT FP8 reduziert sich auf ~11 GB (2,3-fache Beschleunigung). In BFloat16 wurde das Modell selbst portiert.
SD3.5 Turbo: nur 4–8 Schritte; Die GPU-Auslastung beträgt etwa 1/5 der Basis für ein bestimmtes Qualitätsziel, zu Kosten von NEIN Anleitung zum Klassifikator.
SD3-Medium und SD3.5-Medium: Wahrscheinlich ~3–4B Parameter; TensorRT-Beschleunigungen (~1,7-fach) reduzieren den Platzbedarf, detaillierte Metriken sind jedoch unveröffentlicht.

Generationsfluss: Aufforderungstext + anfängliches latentes Rauschen

Text-Encoder (CLIP/T5) -> MMDiT-Transformer -> VAE-Decoder -> Ausgabebild

Tabelle: Vor-/Nachteile und Kosten nach Version

Modell	Vorteile (Qualität, Funktionen)	Nachteile (Kosten, Probleme)	GPU-VRAM (@32 Schritte, ~1024px)	Notizen
SD v1.5	Kleinste; sehr schnell; Umfangreiche Feinabstimmungsunterstützung	Geringere Texttreue, kleine Auflösung	~7 GB (8 GB GPUs sind ausreichend)	—
SD v2.1	Bessere nichtmenschliche Details; Inpainting-/Tiefenmodi hinzugefügt	2x VRAM für 768px-Modus; Leute, die Vorbehalte machen	~8-10 GB (768)	—
SDXL 1.0	Höchste Detailtreue, natürliche Komposition; Refiner verbessert Gesichter	Sehr hoher Ressourcenbedarf; Refiner verdoppelt die Belastung; komplexe Verteilung	~10–12 GB (Basis); +10 GB (Refiner)	Unsichtbares Wasserzeichen enthalten
SD3-Medium	Großer Sprung in der Pünktlichkeit und Typografie; verschlüsseltes Wissen über T5	Hoher Speicher durch T5; langsamer pro Schritt; Gating macht den Zugriff weniger trivial	~12+ GB (variiert je nach Charge)	Optionale Variante ohne T5, FP8 T5 usw.
SD3,5 Groß	Modernste Qualität; destillierter Turbo für Geschwindigkeit	Extrem hoher Ressourcenbedarf; Gating/Lizenzierung; kein eingebauter Refiner	~19 GB Basiswert; 11 GB mit TensorRT	Turbo (4 Stufen) vorhanden, aber keine Anleitung; immer noch eingezäunt
SD3.5 Turbo	Nahezu sofortige Generierung (4–8 Schritte)	Niedrigere Führung (nicht klassifikatorfrei) im Vergleich zur Basis	~11 GB (FP8)	Destilliert
SD3.5 Mittel	(erwartet ähnlich wie SD3 Medium)	(erwartet ähnlich wie Medium)	(unbekannt)	Neue Architekturverbesserungen (MMDiT-X)

Nicht spezifizierte Parameter: Die genaue Größe der „mittleren“ Varianten wird nicht öffentlich angegeben. VRAM-Hinweise stammen aus offiziellen Benchmarks oder empfohlenen Setups.

Ökosystem, Akzeptanz und Anwendungsfälle

Die Wirkung von Stable Diffusion ist enorm. Open-Source-Code und -Gewichte haben unzählige Erweiterungen vorangetrieben. Bemerkenswerte Ökosystemkomponenten:

Diffusoren-Bibliothek: Umarmende Gesichter diffusers Unterstützt vollständig SD2-, SDXL-, SD3- und SD3.5-Pipelines, einschließlich benutzerdefinierter Scheduler, Kompilierungsoptimierungen und Integration von ControlNet und LoRA. Offizielle Dokumente (und Hugging Face-Blog) bieten Anwendungsbeispiele für SD3/SD3.5 diffusers.
Web-UIs: Die Web-Benutzeroberfläche AUTOMATIC1111 (161.000 Sterne) und InvokeAI (27.000 Sterne) waren ursprünglich auf v1/v2 ausgerichtet; Forks von Drittanbietern haben inzwischen SDXL- und SD3-Unterstützung hinzugefügt. ComfyUI (104.000 Sterne) unterstützt nativ SD3/3.5 und ist für erweiterte Pipelines beliebt geworden.
Umarmendes Gesicht: Der Modellhub weist eine enorme Nutzung auf. Stand 24. Februar 2026: SD3.5 Medium (unstable-diffusion-3.5-medium) wurde im letzten Monat ca. 131.993 Mal heruntergeladen, mit 2,6.000 Likes; SD3.5 Large ~42.000/Monat, 2.0.000 Likes; SD3 Medium ~5.000/Monat, 4,9.000 Likes. Im Vergleich dazu beträgt die SDXL-Basis etwa 2 Millionen/Monat mit 7,5.000 Likes. Der SD3.5-Hub listet Hunderte fein abgestimmter Checkpoints und LoRAs auf. Es gibt auch von Stability AI angebotene TensorRT- und ONNX-quantisierte Varianten (für AMD/Nvidia) und sogar optimierte ControlNet-Versionen (z. B. „stable-diffusion-3.5-controlnets-tensorrt“ auf HF), die eine aktive Anpassung demonstrieren.
Cloud/kommerziell: Zusätzlich zu Bedrock/NIM erscheinen SD-Modelle in Sagemaker-Containern, Google Colab-Notizbüchern und proprietären Apps (z. B. Canva verwendet SD in seinen Bildtools). Berichten zufolge nutzen Unternehmen aus den Bereichen Design, Marketing, Gaming und Film benutzerdefinierte SD3/3.5-Pipelines.

Metrisch	Wert
SDXL-Basis-Downloads	2.062.317
SD3.5 Medium-Downloads	131.993
AUTOMATIK1111 Sterne	161.000
ComfyUI-Sterne	104.000
Diffusoren Sterne	32.800

Rechtliche und ethische Fragen

Der Datensatz und die Ergebnisse von Stable Diffusion waren Gegenstand intensiver Debatten:

Trainingsdaten: Frühe Modelle verwendeten LAION-Scraped-Bilder (CC-0 oder permissive Lizenzen). Untersuchungsberichte ergaben jedoch, dass es sich bei LAION um identifizierbare Personen und sogar um Minderjährige handelte, was Bedenken hinsichtlich der Privatsphäre aufkommen ließ. SD3-Modellkarten betonen „Red Teaming“ und geben an, giftige oder illegale Inhalte entfernt zu haben. Unabhängige Prüfungen (und das Vorhandensein von Wasserzeichen auf Bildern vom Typ Getty) lassen jedoch darauf schließen, dass diese Filter nicht perfekt sind.
Urheberrechtsklagen: Ende 2024 verklagte Getty Images Stability AI (Großbritannien und USA). Ein britischer Oberster Gerichtshof entschied, dass die Modellgewichte von Stable Diffusion gleich sind nicht „Kopien“ von Gettys Fotos, da das Modell keine Bilder auf Pixelebene speichert. Dies war ein knapper Sieg: Das Gericht stufte das Training mit nicht autorisierten Getty-Bildern dennoch als Verlust ein. Ähnliche Klagen von Künstlern (Andersen v. Stability usw.) sind in den USA im Gange, wobei die Anträge teilweise abgewiesen wurden. (Laut Reuters sind Midjourney und DeviantArt unabhängig voneinander Beklagte in verwandten Fällen.) Das Wesentliche: Die Rechtmäßigkeit der Verwendung von Scraped-Art für Schulungen ist ungeklärt, insbesondere außerhalb begrenzter „Data-Mining“-Ausnahmen.
Ethische Verwendung: SD enthält Sicherheitsfilter (Stable Diffusion 1.4+ verfügte standardmäßig über einen NSFW-Klassifikator). SDXL und SD3 verlassen sich auf das Watermark SDK (unsichtbare Wasserzeichen), um KI-Bilder zu markieren, es wurden jedoch Angriffe zum Entfernen von Wasserzeichen nachgewiesen (24-Stunden-Forschung des MIT usw.). Die Gating-Lizenz schränkt auch Verwendungen wie z automatisierte Gesichtserkennung, biometrische Analyse, Überwachung und Erzeugung illegaler Inhalte, wie in der Lizenz aufgeführt.

Praktische Anleitung für Benutzer

Zugang: Um geschlossene Modelle (SD3/3.5) herunterzuladen, erstellen Sie ein Hugging Face-Konto und stimmen Sie der Lizenz auf der Modellseite zu. Dann verwenden huggingface-cli login bevor Sie eine Pipeline ausführen. Das Diffusor-Beispiel für SD3.5 zeigt genau diesen Schritt. Stability AI stellt ein GitHub-Skript (Stability-AI/sd3.5) zur Verfügung, um das Abrufen der erforderlichen Dateien zu automatisieren.

Schlussfolgerung: Verwenden Sie gemischte Präzision (fp16 oder bf16) und Frameworks wie Torch 2.0 mit torch.compile oder TensorRT für Geschwindigkeit. Beispielsweise wird die SD3.5 Large-Inferenz in bfloat16 (der ursprünglich veröffentlichten Genauigkeit) demonstriert. Verwenden Sie klassifikatorfreie Richtwerte von ~4–7 für SD3-Modelle (Kontrast gegenüber ~7–15 in SD1/2). Für Hardware mit begrenztem VRAM: Laden Sie jeweils ein Modell (laden Sie z. B. Refiner nicht standardmäßig mit SDXL) oder verwenden Sie Offloading. Auf 8–12-GB-GPUs kann SDXL mit reduzierter Stapelgröße ausgeführt werden, während SD3.5 Large ohne Optimierung normalerweise etwa 16 GB oder mehr benötigt.

Feinabstimmung und Plugins: Die Feinabstimmung von LoRA funktioniert mit jeder Version, aber LoRAs sind nicht zwischen Architekturtypen kompatibel (z. B. lässt sich ein LoRA der Version 1.5 nicht in SD3 integrieren). ControlNet erfordert separate Modellvarianten; StabilityAI hat SD3.5-spezifische Kontrollnetze (TensorRT-optimiert) auf HF veröffentlicht. Es gibt viele Community-Adapter (LoRAs, Dreambooth-Modelle), wie in den HF-Modellbäumen zu sehen ist. Stellen Sie immer sicher, dass LoRAs oder ControlNets mit der Basismodellversion übereinstimmen.

Alle oben genannten Daten stammen aus offiziellen Quellen (Modellkarten, Papiere) oder seriösen Analysen. Die Figuren sind mit „ohne Datum“ gekennzeichnet. wurden in den Quellen nicht angegeben. Wir zitieren Trainingsdaten und VRAM aus Ankündigungen und Artikeln zur Stabilitäts-KI; Wo nicht öffentlich, vermerken wir es. Dieser Schnappschuss entspricht dem Stand vom 24. Februar 2026.