Línea modelo de difusión estable: evolución, arquitectura y ecosistema

Resumen ejecutivo

Stable Diffusion abarca una serie de modelos abiertos (o semiabiertos) de texto a imagen desarrollados por Stability AI y sus colaboradores. Su evolución abarca desde los modelos originales v1.x (lanzados en agosto de 2022) hasta v2.x (finales de 2022), los modelos SDXL grandes (mediados o finales de 2023) y los nuevos modelos SD3 y SD3.5 basados en transformadores (anunciados en 2024). Cada generación trajo nuevos diseños técnicos y políticas de licencia. La estrategia de Stability AI pasó de versiones totalmente abiertas a versiones cerradas de “licencia comunitaria” con umbrales de ingresos, en particular para SD3/3.5.

Páginas relacionadas:

Contexto de la empresa: Stability AI (fundada en 2020) fue uno de los primeros patrocinadores e ingenieros de Stable Diffusion. La empresa creció rápidamente gracias al éxito de Stability Diffusion, generó rondas en 2023-24 y enfrentó cambios de liderazgo (el fundador fue reemplazado, Sean Parker se unió a la junta). A finales de 2024, Stability AI estaba siguiendo una estrategia empresarial, introduciendo licencias basadas en ingresos para monetizar su ecosistema.

Disponibilidad y licencias: Todos los modelos principales se distribuyen a través de Hugging Face (y algunos a través de los propios estudios o API de Stability AI), pero con términos en evolución. Los modelos v1.x y SDXL utilizan la licencia CreativeML Open RAIL++ (gratuita para la mayoría de los usos). Por el contrario, los modelos SD3 y SD3.5 utilizan una nueva licencia comunitaria Stability AI: gratuita para investigación, no comercial y para pequeñas empresas (por debajo de 1 millón de dólares de ingresos), pero requiere una licencia empresarial por encima de ese umbral. Los puntos de control SD3/3.5 son cerrado en Hugging Face: los usuarios deben iniciar sesión, aceptar los términos y proporcionar información de contacto antes de descargar (como se documenta en las páginas del modelo). Los pesos SDXL siguen siendo descargables públicamente (con un clic de licencia estándar). Existen integraciones en la nube: p. SD3.5 Large está disponible a través de Amazon Bedrock (AWS) y NVIDIA NIM, sujeto a la misma autorización/licencia.

Especificaciones técnicas: El cambio arquitectónico central es de las UNets de difusión a los transformadores de difusión. Todos los modelos anteriores al 3 (v1.x, v2.x, SDXL) son modelos de difusión latente: un codificador automático de espacio de píxeles (generalmente de 4 canales latentes con una reducción de resolución de 8 ×) que alimenta un eliminador de ruido UNet. Utilizan el codificador de texto CLIP (v1.x: CLIP ViT-L/14; v2.x y SDXL: OpenCLIP ViT-H/14 y/o CLIP ViT/L) para condicionar mediante atención cruzada. SDXL agregó un segundo codificador de texto y un UNet “refinador” más pequeño para pulir. Por el contrario, SD3/3.5 son Transformadores de difusión multimodal. Codifican texto con tres codificadores previamente entrenados (CLIP ViT/L, OpenCLIP ViT/G y un T5 grande) y tokens de modalidad entrelazados, logrando un flujo bidireccional entre representaciones de texto e imágenes. Especificaciones clave por versión:

SD v1.x: Parámetro UNet 860M–890M (por línea, implícito en convUNet de 23 capas en LDM). Codificador de texto: CLIP ViT-L/14. Canales latentes 4, reducción de resolución 8×. Entrenado en el subconjunto inglés LAION-2B con filtro de puntuación estética. Se utiliza guía sin clasificador. VRAM: ~7–8 GB para 512×512 en ~50 pasos.
SD v2.x (512/768): ~860M parámetro UNet (escala similar). Codificador de texto: OpenCLIP ViT-H/14 (contexto 1024-dim). Disminución de resolución latente 8×. Entrenado en LAION 5B filtrado (estética≥5, filtro NSFW explícito) con un objetivo v. Resolución: variantes nativas 512 y 768. Variantes adicionales: Depth2img, inpainting, upscaling (con sus propios canales de acondicionamiento). VRAM: 2–3 veces mayor para el modo 768 (debido a una dimensión lineal de 1,5 veces).
SDXL (v1.0, v1.0+refinador): Núcleo de parámetros 2.6B UNet (aproximadamente 3 veces más grande que SD v2). Codificadores de texto duales: OpenCLIP ViT/G y CLIP ViT/L (por modelo de tarjeta). Resolución nativa de 1024×1024; salidas “en espacio latente” con 8× downsample, latentes de 4 canales. Conjunto de datos de entrenamiento: conjunto patentado de múltiples aspectos (derivado de LAION 5B) con >540 millones de imágenes HQ, estética >4,3 (el informe dice "corpus masivo", composición exacta no revelada). Usos del SDXL difusión en dos etapas: una UNet base y luego una UNet “refinadora” separada. El acondicionamiento de tokens incluye el tamaño de la imagen original y las coordenadas de recorte (microcondicionamiento). VRAM: muy grande; base+refiner se carga simultáneamente ~12–20 GB típico, así que use la descarga o TensorRT y compile optimizaciones. Una marca de agua invisible se aplica de forma predeterminada en el software.
SD3 Medio: Presenta la columna vertebral MMDiT. El tamaño del punto de control no se indica explícitamente (los artículos de IA sobre estabilidad oscilaron entre 450M y 8B e implicaron Medio ≈2–3B?), pero los parámetros de ~2B son plausibles. Utiliza tres codificadores fijos: CLIP ViT/L, OpenCLIP ViT/G y T5-XXL, con un vocabulario de 50k. Disminución de resolución latente 8×, canales VAE 4. Datos de entrenamiento: 1.0 mil millones de imágenes públicas+sintéticas para entrenamiento inicial, ajustadas en 30 millones de imágenes altamente estéticas y 3 millones de preferencias humanas (pares de control de calidad). Texto/vídeo: sin etapa de refinado separada; La calidad es de una sola pasada. VRAM: media-alta. Los usuarios pueden dejar el codificador T5 o usar una versión FP8 para ahorrar memoria (se proporcionan variantes de empaque).
SD3.5 Grande: ~8.100 millones de parámetros (anuncio). Mismo esquema de triple codificador, con normalización QK y atención dual en transformadores. Sin refinador; una versión destilada "Turbo" proporciona una inferencia de 4 pasos. Datos de entrenamiento no detallados. Resolución de orientación 1024×1024 (1 megapíxel). VRAM: muy alta (base de 19 GB, reducida a ~11 GB con TensorRT FP8).
SD3.5 Medio: Conocido como MMDiT-X (con capas de atención dual en los primeros 12 bloques). Recuento de parámetros no revelado; probablemente 2-3B. Por lo demás similar a SD3 Medium. Las optimizaciones de TensorRT producen una aceleración de ~1,7 veces (no se proporcionan los números de VRAM).

Figura: Arquitectura de difusión latente de difusión estable temprana (SD v1.x/2.x). Un U-Net elimina el ruido de un latente submuestreado 8×; El condicionamiento (características del texto) ingresa a través de bloques de atención cruzada.

Cronograma de lanzamiento y eventos clave

A continuación se resumen los principales eventos de la empresa y los comunicados.

Tabla de cronograma:

Fecha	Evento	Detalles y fuente
2022-08-22	Versión SD 1.0 (v1.1)	Difusión latente UNet (CLIP), primer lanzamiento público. Demostración lanzada.
2022-12	Lanzamiento SD v2.0	Nuevos codificadores OpenCLIP, modos 512/768, conjunto de datos refinado, profundidad adicional, variantes inpaint.
2023-07	Lanzamiento SDXL 1.0	UNet grande (2.6B), codificadores de texto duales, canalización base+refinador, 1024px.
2024-03	Papel SD3 (MMDiT)	Se introdujo la columna vertebral del transformador, flujo rectificado; Código fuente/modelos prometidos.
2024-06-12	SD3 Lanzamiento medio	Lanzamiento cerrado del modelo mediano.
2024-10-22	Lanzamiento SD3.5	Lanzamiento de SD3.5 Large & Turbo (4 pasos); parámetro 8B; Distribución cerrada.
2024-11	SD3.5 Lanzamiento medio	SD3.5 Punto de control medio agregado en HF.
2024-12	SD3.5 en AWS y NVIDIA	SD3.5 Large implementado en Amazon Bedrock, NVIDIA NIM (con puerta).
2025-05	Optimización SD3.5 TensorRT	2× velocidad, 40% menos VRAM (11GB) en GPU RTX.
2025-XX	Fallos/juicios legales	Un tribunal del Reino Unido dictamina sobre los pesos de los modelos SD no copias infractoras directas; Casos en curso en Estados Unidos.
(2016-2025)	Eventos de empresa	Fundación (2020), salida de Emad (2024), cambios de director ejecutivo/junta directiva, financiación de 101 millones de dólares (2023).

Disponibilidad, acceso y licencias

La distribución y licencia de cada generación de modelo es diferente:

SDv1.x: Los pesos se lanzaron abiertamente en Hugging Face bajo la licencia CreativeML Open RAIL-M (más tarde denominada RAIL++). No hay puerta más allá de aceptar la licencia. El código estaba abierto en GitHub.
SDv2.x: Código abierto de manera similar con una licencia OpenRAIL++ actualizada. El repositorio de peso HF requiere la aceptación de los términos de la licencia (OpenRAIL+). No hay una puerta de información de contacto, pero los usuarios deben marcar una casilla para obtener la licencia.
SDXL 1.0: Versión abierta en CreativeML Open RAIL++. Descarga de pesos de Hugging Face sin control adicional (solo haga clic en la licencia). El repositorio de “modelos generativos” de GitHub proporcionó VAE y código de muestra.
SD3 y SD3.5: Los pesos son cerrado en Abrazar la cara. Las páginas del modelo establecen explícitamente que los usuarios deben iniciar sesión, completar un formulario de aceptación de licencia y compartir información de contacto antes de realizar la descarga. La licencia subyacente es la licencia comunitaria Stability AI, introducida en julio de 2024, que permite el uso gratuito para investigación, uso no comercial y “pequeño comercio calificado” (ingresos <1 millón de dólares), y requiere una licencia empresarial superior. Esta es efectivamente una licencia que genera ingresos. Las tarjetas modelo hacen referencia a este umbral y a la necesidad de contactar a Stability AI para un uso de nivel superior.

Disponibilidad en la nube: Stability AI ofrece SD3/3.5 en su API y productos “Stable Assistant”, y los socios los han integrado (por ejemplo, SD3.5 Large es un modelo en AWS Bedrock y Nvidia NIM). En todos los casos, se aplica la misma puerta/licencia. Una consecuencia es que muchos guiones comunitarios cambiaron: p. Los médicos de los difusores de HuggingFace advierten que "El modelo está cerrado... primero debes ir a la página Stable Diffusion 3.5 Large Hugging Face, completar el formulario y aceptar la puerta. Luego inicia sesión usando huggingface-cli.”.

Comparación de apertura: V1.x, V2.x y SDXL tenían pesos totalmente públicos y licencias abiertas (RAIL++), mientras que SD3/3.5 son de código “abierto” pero de acceso cerrado y bajo una licencia de ingresos restringidos. Todos los lanzamientos principales están en Hugging Face (con la activación necesaria) y en GitHub de Stability AI para obtener código. El lanzamiento de SD3.5 también proporcionó un repositorio de GitHub “solo para inferencia” (Stability-AI/sd3.5) que automatiza la descarga de los pesos controlados.

Especificaciones técnicas por versión

La siguiente tabla resume las especificaciones técnicas principales (arquitectura, resolución, codificadores de texto, etc.) y contrasta cada versión principal de Stable Diffusion. Las cifras no especificadas o no reveladas están marcadas como "(n.d.)".

Versión	Arquitectura / Codificador	Cond. Codificadores de texto	Latente/VAE (canales, reducción de resolución)	Res. nativa. / Guía	Datos de entrenamiento (tamaño/filtro)	Licencia / Acceso
SD 1.x (v1.4/1.5)	UNet (860 millones de capas de conversión)	CLIP ViT-L/14 (768-dim)	4 canales, 8× reducción de resolución	512×512	Subconjunto en inglés de LAION-5B, filtrado por puntuación estética	OpenRAIL (abierto); Pesos HF abiertos
SD 2.0/2.1	UNet (escala similar)	OpenCLIP ViT-H/14 (1024-tenue)	4 canales, 8× reducción de resolución	512/768	Subconjunto de alta estética LAION-5B, filtrado NSFW	OpenRAIL++ (abierto, aceptación cerrada por HF)
SDXL 1.0	UNet (≈2,6 mil millones de pesos de conversión)	CLIP ViT/L + OpenCLIP ViT/G	4 canales, 8 × reducción de resolución (en latente)	1024×1024	Más de 540 millones de imágenes (subconjunto LAION multiaspecto, estética >4.3) (privado)	OpenRAIL++ (abierto)
Refinador SDXL	Etapa de refinamiento UNet	(usa los mismos codificadores)	-	1024×1024	Entrenado en caras y detalles (interno)	-
SD3 Medio	Transformador MMDiT (~2–3B?)	CLIP ViT/L, OpenCLIP ViT/G, T5-XXL	4 canales, 8× reducción de resolución	~1024×1024 (guiado)	1.0B preentrenamiento (sintetizador+público) + 30M estético + preferencia 3M (stability.ai)	Licencia comunitaria (cerrada)
SD3.5 grande	Transformador MMDiT (8.1B)	CLIP ViT/L, OpenCLIP ViT/G, T5-XXL	4 canales, 8× reducción de resolución	1024×1024	(No revelado; presumiblemente incluso más grande+prefino)	Licencia comunitaria (cerrada)
SD3.5 Grande (Turbo)	Mismo + AÑADIR Destilación	Mismo	Mismo	1024×1024	(Versión destilada para mayor velocidad)	Licencia comunitaria (cerrada)
SD3.5 Medio	Transformador MMDiT-X (sin fecha)	CLIP/L, OpenCLIP/G, T5-XXL	4 canales, 8× reducción de resolución	1024×1024?	(No revelado)	Licencia comunitaria (cerrada)

Cada modelo utiliza guía sin clasificador por defecto. Los modelos SD v1/v2 incluyen acondicionamiento parcial (abandono) durante el entrenamiento; SD3/3.5 utiliza pérdida combinada con ejemplos incondicionados por pares. El diagrama de difusión estable anterior muestra el flujo de difusión latente v1/v2/XL.

Costo de cálculo e inferencia

Los modelos más grandes requieren mucha más computación. Estimaciones aproximadas:

SDv1.5: Una imagen de 512×512 requiere ~50 pasos de difusión. Con un UNet de 860M de parámetros en una red latente de 8×8 (cuadrícula de 64×64), esto es factible en una GPU de 6 a 8 GB a velocidad reducida.
SDXL 1.0: La generación de 1024×1024 (~128×128 latente) y una UNet de 2.6B hacen que la inferencia sea ~10 veces más pesada por paso. Para ejecutar base+refiner juntos se necesitan ≥10–12 GB de VRAM en 28–50 pasos. Los usuarios a menudo descargan o usan TensorRT/Cuantización (NVIDIA informa un corte de memoria del 40%).
SD3.5 grande: 1024×1024, 8B parámetros. Pruebas oficiales: ~19 GB de VRAM para el modelo base en 32 pasos; TensorRT FP8 se reduce a ~11 GB (aceleración de 2,3 veces). En BFloat16, el modelo en sí fue portado.
SD3.5 Turbo: 4 a 8 pasos solamente; La carga de GPU es ~1/5 de la base para un objetivo de calidad determinado, a un costo de No guía del clasificador.
SD3 Medio y SD3.5 Medio: Probablemente ~3–4B parámetros; Las aceleraciones de TensorRT (~1,7×) reducen la huella, pero las métricas detalladas no están publicadas.

Flujo de generación: Texto rápido + ruido latente inicial

Codificadores de texto (CLIP/T5) -> transformador MMDiT -> decodificador VAE -> imagen de salida

Tabla: Pros/Contras y costos por versión

Modelo	Ventajas (calidad, características)	Contras (costo, problemas)	VRAM de GPU (@32 pasos, ~1024 px)	Notas
SDv1.5	Pequeñísimo; muy rápido; amplio soporte de ajuste	Menor fidelidad en texto, resolución pequeña	~7 GB (las GPU de 8 GB son suficientes)	—
SD v2.1	Mejores detalles no humanos; añadidos modos de pintura/profundidad	2x VRAM para modo 768px; personas haciendo advertencias	~8-10 GB (768)	—
SDXL 1.0	Máximo detalle, composición natural; refinador mejora las caras	Necesidades de recursos muy elevadas; el refinador duplica la carga; distribución compleja	~10-12 GB (básicos); +10 GB (refinador)	Marca de agua invisible incluida.
SD3 Medio	Gran salto en fidelidad de puntualidad y tipografía; conocimiento codificado a través de T5	Alta memoria debido a T5; más lento por paso; La puerta hace que el acceso sea menos trivial.	~12+ GB (varía según el lote)	Variante opcional no T5, FP8 T5, etc.
SD3.5 grande	Calidad de última generación; Turbo destilado para mayor velocidad	Necesidades de recursos extremadamente altas; acceso/licencia; sin refinador incorporado	~19 GB de referencia; 11 GB con TensorRT	Existe turbo (4 pasos) pero no hay guía; todavía cerrado
SD3.5 Turbo	Generación casi instantánea (4-8 pasos)	Orientación más baja (sin clasificador) frente a la base	~11 GB (FP8)	Destilado
SD3.5 Medio	(se espera que sea similar a SD3 Medio)	(se espera que sea similar a Medio)	(desconocido)	Nuevas mejoras de arquitectura (MMDiT-X)

Parámetros no especificados: El tamaño exacto de las variantes "medianas" no se proporciona públicamente. Las notas de VRAM provienen de puntos de referencia oficiales o configuraciones recomendadas.

Ecosistema, adopción y casos de uso

El impacto de Stable Diffusion es enorme. El código fuente abierto y los pesos han impulsado innumerables extensiones. Componentes notables del ecosistema:

Biblioteca de difusores: Abrazando la cara diffusers Es totalmente compatible con canalizaciones SD2, SDXL, SD3 y SD3.5, incluidos programadores personalizados, optimizaciones de compilación e integración de ControlNet y LoRA. Documentos oficiales (y Blog de cara de abrazo) proporciona ejemplos de uso de SD3/SD3.5 con diffusers.
UI web: La interfaz de usuario web AUTOMATIC1111 (161.000 estrellas) e InvokeAI (27.000 estrellas) inicialmente apuntaron a v1/v2; Desde entonces, las bifurcaciones de terceros han agregado compatibilidad con SDXL y SD3. ComfyUI (104k estrellas) es compatible de forma nativa con SD3/3.5 y se ha vuelto popular para canalizaciones avanzadas.
Cara de abrazo: El centro de modelos muestra un uso enorme. Al 24 de febrero de 2026: SD3.5 Medium (unstable-diffusion-3.5-medium) se descargó aproximadamente 131 993 veces en el último mes, con 2,6 mil me gusta; SD3.5 Grande ~42k/mes, 2.0k me gusta; SD3 Medio ~5k/mes, 4,9k me gusta. En comparación, la base de SDXL es de ~2 millones al mes con 7,5 mil me gusta. El centro SD3.5 enumera cientos de puntos de control y LoRA ajustados. También hay variantes cuantificadas de TensorRT y ONNX que ofrece Stability AI (para AMD/Nvidia) e incluso versiones optimizadas de ControlNet (por ejemplo, “stable-diffusion-3.5-controlnets-tensorrt” en HF) que demuestran una adaptación activa.
Nube/Comercial: Además de Bedrock/NIM, los modelos SD aparecen en contenedores Sagemaker, cuadernos de Google Colab y aplicaciones propietarias (por ejemplo, Canva usa SD en sus herramientas de imagen). Los informes citan empresas de diseño, marketing, juegos y películas que aprovechan los canales SD3/3.5 personalizados.

Métrico	Valor
Descargas básicas SDXL	2.062.317
SD3.5 Descargas medianas	131.993
AUTOMÁTICO1111 estrellas	161.000
Estrellas cómodas de UI	104.000
Difusores estrellas	32.800

Cuestiones legales y éticas

El conjunto de datos y los resultados de Stable Diffusion han sido objeto de un intenso debate:

Datos de entrenamiento: Los primeros modelos utilizaban imágenes extraídas de LAION (CC-0 o licencias permisivas). Sin embargo, los informes de investigación descubrieron que LAION contenía personas identificables e incluso menores, lo que generó preocupaciones sobre la privacidad. Las tarjetas modelo SD3 enfatizan el “equipo rojo” y afirman haber eliminado contenido tóxico o ilegal, pero auditorías independientes (y la presencia de marcas de agua en imágenes tipo Getty) sugieren que estos filtros son imperfectos.
Demandas por derechos de autor: A finales de 2024, Getty Images demandó a Stability AI (Reino Unido y EE. UU.). Un Tribunal Superior del Reino Unido dictaminó que los pesos de los modelos de Stable Diffusion son no "copias" de las fotografías de Getty, ya que el modelo no almacena imágenes a nivel de píxeles. Esta fue una victoria estrecha: el tribunal aún prohibió entrenar con imágenes no autorizadas de Getty como una pérdida. En Estados Unidos se están llevando a cabo demandas similares por parte de artistas (Andersen v. Stability, etc.), con mociones parcialmente desestimadas. (Por separado, Midjourney y DeviantArt son acusados en casos relacionados, según Reuters). La esencia: la legalidad del uso de arte raspado para capacitación no está resuelta, especialmente fuera de las excepciones limitadas de “minería de datos”.
Uso ético: SD incluye filtros de seguridad (Stable Diffusion 1.4+ tenía un clasificador NSFW de forma predeterminada). SDXL y SD3 se basan en Watermark SDK (marcas de agua invisibles) para etiquetar imágenes de IA, pero se han demostrado ataques de eliminación de marcas de agua (investigación de 24 horas realizada por el MIT, etc.). La licencia de acceso también restringe usos como reconocimiento facial automatizado, análisis biométrico, vigilancia y generación de contenido ilegal, como se enumera en la licencia.

Guía práctica para usuarios

Acceso: Para descargar modelos privados (SD3/3.5), cree una cuenta de Hugging Face y acepte la licencia en la página del modelo. Entonces usa huggingface-cli login antes de ejecutar cualquier tubería. El ejemplo de difusores para SD3.5 muestra precisamente este paso. Stability AI proporciona un script de GitHub (Stability-AI/sd3.5) para automatizar la búsqueda de los archivos necesarios.

Inferencia: Utilice precisión mixta (fp16 o bf16) y marcos como Torch 2.0 con torch.compile o TensorRT para velocidad. Por ejemplo, la inferencia grande SD3.5 se demuestra en bfloat16 (la precisión publicada original). Utilice valores de orientación sin clasificador ~4–7 para los modelos SD3 (contraste frente a ~7–15 en SD1/2). Para hardware con VRAM limitada: cargue un modelo a la vez (por ejemplo, no cargue el refinador con SDXL de forma predeterminada) o utilice la descarga. En GPU de 8 a 12 GB, SDXL puede ejecutarse en un tamaño de lote reducido, mientras que SD3.5 Large normalmente necesita ~16 GB o más sin optimización.

Ajustes y complementos: El ajuste fino de LoRA funciona con cualquier versión, pero los LoRA no son compatibles entre tipos de arquitectura (por ejemplo, un LoRA v1.5 no se conecta a SD3). ControlNet requiere variantes de modelo independientes; StabilityAI lanzó redes de control específicas de SD3.5 (optimizadas para TensorRT) en HF. Existen muchos adaptadores comunitarios (LoRA, modelos Dreambooth) como se ve en los árboles del modelo HF. Asegúrese siempre de que los LoRA o ControlNet coincidan con la versión del modelo base.

Todos los datos anteriores se extraen de fuentes oficiales (tarjetas modelo, documentos) o análisis acreditados. Cifras marcadas n.d. no fueron especificados por las fuentes. Citamos datos de entrenamiento y VRAM de anuncios y artículos de Stability AI; cuando no es público, lo tomamos nota. Esta instantánea es exacta al 24 de febrero de 2026.