Línea modelo de difusión estable: evolución, arquitectura y ecosistema

Resumen ejecutivo

Stable Diffusion abarca una serie de modelos abiertos (o semiabiertos) de texto a imagen desarrollados por Stability AI y sus colaboradores. Su evolución abarca desde los modelos originales v1.x (lanzados en agosto de 2022) hasta v2.x (finales de 2022), los modelos SDXL grandes (mediados o finales de 2023) y los nuevos modelos SD3 y SD3.5 basados ​​en transformadores (anunciados en 2024). Cada generación trajo nuevos diseños técnicos y políticas de licencia. La estrategia de Stability AI pasó de versiones totalmente abiertas a versiones cerradas de “licencia comunitaria” con umbrales de ingresos, en particular para SD3/3.5.

Páginas relacionadas:

Contexto de la empresa: Stability AI (fundada en 2020) fue uno de los primeros patrocinadores e ingenieros de Stable Diffusion. La empresa creció rápidamente gracias al éxito de Stability Diffusion, generó rondas en 2023-24 y enfrentó cambios de liderazgo (el fundador fue reemplazado, Sean Parker se unió a la junta). A finales de 2024, Stability AI estaba siguiendo una estrategia empresarial, introduciendo licencias basadas en ingresos para monetizar su ecosistema.

Disponibilidad y licencias: Todos los modelos principales se distribuyen a través de Hugging Face (y algunos a través de los propios estudios o API de Stability AI), pero con términos en evolución. Los modelos v1.x y SDXL utilizan la licencia CreativeML Open RAIL++ (gratuita para la mayoría de los usos). Por el contrario, los modelos SD3 y SD3.5 utilizan una nueva licencia comunitaria Stability AI: gratuita para investigación, no comercial y para pequeñas empresas (por debajo de 1 millón de dólares de ingresos), pero requiere una licencia empresarial por encima de ese umbral. Los puntos de control SD3/3.5 son cerrado en Hugging Face: los usuarios deben iniciar sesión, aceptar los términos y proporcionar información de contacto antes de descargar (como se documenta en las páginas del modelo). Los pesos SDXL siguen siendo descargables públicamente (con un clic de licencia estándar). Existen integraciones en la nube: p. SD3.5 Large está disponible a través de Amazon Bedrock (AWS) y NVIDIA NIM, sujeto a la misma autorización/licencia.

Especificaciones técnicas: El cambio arquitectónico central es de las UNets de difusión a los transformadores de difusión. Todos los modelos anteriores al 3 (v1.x, v2.x, SDXL) son modelos de difusión latente: un codificador automático de espacio de píxeles (generalmente de 4 canales latentes con una reducción de resolución de 8 ×) que alimenta un eliminador de ruido UNet. Utilizan el codificador de texto CLIP (v1.x: CLIP ViT-L/14; v2.x y SDXL: OpenCLIP ViT-H/14 y/o CLIP ViT/L) para condicionar mediante atención cruzada. SDXL agregó un segundo codificador de texto y un UNet “refinador” más pequeño para pulir. Por el contrario, SD3/3.5 son Transformadores de difusión multimodal. Codifican texto con tres codificadores previamente entrenados (CLIP ViT/L, OpenCLIP ViT/G y un T5 grande) y tokens de modalidad entrelazados, logrando un flujo bidireccional entre representaciones de texto e imágenes. Especificaciones clave por versión:

Figura: Arquitectura de difusión latente de difusión estable temprana (SD v1.x/2.x). Un U-Net elimina el ruido de un latente submuestreado 8×; El condicionamiento (características del texto) ingresa a través de bloques de atención cruzada.

Cronograma de lanzamiento y eventos clave

A continuación se resumen los principales eventos de la empresa y los comunicados.

Tabla de cronograma:

Fecha Evento Detalles y fuente
2022-08-22 Versión SD 1.0 (v1.1) Difusión latente UNet (CLIP), primer lanzamiento público. Demostración lanzada.
2022-12 Lanzamiento SD v2.0 Nuevos codificadores OpenCLIP, modos 512/768, conjunto de datos refinado, profundidad adicional, variantes inpaint.
2023-07 Lanzamiento SDXL 1.0 UNet grande (2.6B), codificadores de texto duales, canalización base+refinador, 1024px.
2024-03 Papel SD3 (MMDiT) Se introdujo la columna vertebral del transformador, flujo rectificado; Código fuente/modelos prometidos.
2024-06-12 SD3 Lanzamiento medio Lanzamiento cerrado del modelo mediano.
2024-10-22 Lanzamiento SD3.5 Lanzamiento de SD3.5 Large & Turbo (4 pasos); parámetro 8B; Distribución cerrada.
2024-11 SD3.5 Lanzamiento medio SD3.5 Punto de control medio agregado en HF.
2024-12 SD3.5 en AWS y NVIDIA SD3.5 Large implementado en Amazon Bedrock, NVIDIA NIM (con puerta).
2025-05 Optimización SD3.5 TensorRT 2× velocidad, 40% menos VRAM (11GB) en GPU RTX.
2025-XX Fallos/juicios legales Un tribunal del Reino Unido dictamina sobre los pesos de los modelos SD no copias infractoras directas; Casos en curso en Estados Unidos.
(2016-2025) Eventos de empresa Fundación (2020), salida de Emad (2024), cambios de director ejecutivo/junta directiva, financiación de 101 millones de dólares (2023).

Disponibilidad, acceso y licencias

La distribución y licencia de cada generación de modelo es diferente:

Disponibilidad en la nube: Stability AI ofrece SD3/3.5 en su API y productos “Stable Assistant”, y los socios los han integrado (por ejemplo, SD3.5 Large es un modelo en AWS Bedrock y Nvidia NIM). En todos los casos, se aplica la misma puerta/licencia. Una consecuencia es que muchos guiones comunitarios cambiaron: p. Los médicos de los difusores de HuggingFace advierten que "El modelo está cerrado... primero debes ir a la página Stable Diffusion 3.5 Large Hugging Face, completar el formulario y aceptar la puerta. Luego inicia sesión usando huggingface-cli.”.

Comparación de apertura: V1.x, V2.x y SDXL tenían pesos totalmente públicos y licencias abiertas (RAIL++), mientras que SD3/3.5 son de código “abierto” pero de acceso cerrado y bajo una licencia de ingresos restringidos. Todos los lanzamientos principales están en Hugging Face (con la activación necesaria) y en GitHub de Stability AI para obtener código. El lanzamiento de SD3.5 también proporcionó un repositorio de GitHub “solo para inferencia” (Stability-AI/sd3.5) que automatiza la descarga de los pesos controlados.

Especificaciones técnicas por versión

La siguiente tabla resume las especificaciones técnicas principales (arquitectura, resolución, codificadores de texto, etc.) y contrasta cada versión principal de Stable Diffusion. Las cifras no especificadas o no reveladas están marcadas como "(n.d.)".

Versión Arquitectura / Codificador Cond. Codificadores de texto Latente/VAE (canales, reducción de resolución) Res. nativa. / Guía Datos de entrenamiento (tamaño/filtro) Licencia / Acceso
SD 1.x (v1.4/1.5) UNet (860 millones de capas de conversión) CLIP ViT-L/14 (768-dim) 4 canales, 8× reducción de resolución 512×512 Subconjunto en inglés de LAION-5B, filtrado por puntuación estética OpenRAIL (abierto); Pesos HF abiertos
SD 2.0/2.1 UNet (escala similar) OpenCLIP ViT-H/14 (1024-tenue) 4 canales, 8× reducción de resolución 512/768 Subconjunto de alta estética LAION-5B, filtrado NSFW OpenRAIL++ (abierto, aceptación cerrada por HF)
SDXL 1.0 UNet (≈2,6 mil millones de pesos de conversión) CLIP ViT/L + OpenCLIP ViT/G 4 canales, 8 × reducción de resolución (en latente) 1024×1024 Más de 540 millones de imágenes (subconjunto LAION multiaspecto, estética >4.3) (privado) OpenRAIL++ (abierto)
Refinador SDXL Etapa de refinamiento UNet (usa los mismos codificadores) - 1024×1024 Entrenado en caras y detalles (interno) -
SD3 Medio Transformador MMDiT (~2–3B?) CLIP ViT/L, OpenCLIP ViT/G, T5-XXL 4 canales, 8× reducción de resolución ~1024×1024 (guiado) 1.0B preentrenamiento (sintetizador+público) + 30M estético + preferencia 3M (stability.ai) Licencia comunitaria (cerrada)
SD3.5 grande Transformador MMDiT (8.1B) CLIP ViT/L, OpenCLIP ViT/G, T5-XXL 4 canales, 8× reducción de resolución 1024×1024 (No revelado; presumiblemente incluso más grande+prefino) Licencia comunitaria (cerrada)
SD3.5 Grande (Turbo) Mismo + AÑADIR Destilación Mismo Mismo 1024×1024 (Versión destilada para mayor velocidad) Licencia comunitaria (cerrada)
SD3.5 Medio Transformador MMDiT-X (sin fecha) CLIP/L, OpenCLIP/G, T5-XXL 4 canales, 8× reducción de resolución 1024×1024? (No revelado) Licencia comunitaria (cerrada)

Cada modelo utiliza guía sin clasificador por defecto. Los modelos SD v1/v2 incluyen acondicionamiento parcial (abandono) durante el entrenamiento; SD3/3.5 utiliza pérdida combinada con ejemplos incondicionados por pares. El diagrama de difusión estable anterior muestra el flujo de difusión latente v1/v2/XL.

Costo de cálculo e inferencia

Los modelos más grandes requieren mucha más computación. Estimaciones aproximadas:

Flujo de generación: Texto rápido + ruido latente inicial

Codificadores de texto (CLIP/T5) -> transformador MMDiT -> decodificador VAE -> imagen de salida

Tabla: Pros/Contras y costos por versión

Modelo Ventajas (calidad, características) Contras (costo, problemas) VRAM de GPU (@32 pasos, ~1024 px) Notas
SDv1.5 Pequeñísimo; muy rápido; amplio soporte de ajuste Menor fidelidad en texto, resolución pequeña ~7 GB (las GPU de 8 GB son suficientes)
SD v2.1 Mejores detalles no humanos; añadidos modos de pintura/profundidad 2x VRAM para modo 768px; personas haciendo advertencias ~8-10 GB (768)
SDXL 1.0 Máximo detalle, composición natural; refinador mejora las caras Necesidades de recursos muy elevadas; el refinador duplica la carga; distribución compleja ~10-12 GB (básicos); +10 GB (refinador) Marca de agua invisible incluida.
SD3 Medio Gran salto en fidelidad de puntualidad y tipografía; conocimiento codificado a través de T5 Alta memoria debido a T5; más lento por paso; La puerta hace que el acceso sea menos trivial. ~12+ GB (varía según el lote) Variante opcional no T5, FP8 T5, etc.
SD3.5 grande Calidad de última generación; Turbo destilado para mayor velocidad Necesidades de recursos extremadamente altas; acceso/licencia; sin refinador incorporado ~19 GB de referencia; 11 GB con TensorRT Existe turbo (4 pasos) pero no hay guía; todavía cerrado
SD3.5 Turbo Generación casi instantánea (4-8 pasos) Orientación más baja (sin clasificador) frente a la base ~11 GB (FP8) Destilado
SD3.5 Medio (se espera que sea similar a SD3 Medio) (se espera que sea similar a Medio) (desconocido) Nuevas mejoras de arquitectura (MMDiT-X)

Parámetros no especificados: El tamaño exacto de las variantes "medianas" no se proporciona públicamente. Las notas de VRAM provienen de puntos de referencia oficiales o configuraciones recomendadas.

Ecosistema, adopción y casos de uso

El impacto de Stable Diffusion es enorme. El código fuente abierto y los pesos han impulsado innumerables extensiones. Componentes notables del ecosistema:

Métrico Valor
Descargas básicas SDXL 2.062.317
SD3.5 Descargas medianas 131.993
AUTOMÁTICO1111 estrellas 161.000
Estrellas cómodas de UI 104.000
Difusores estrellas 32.800

El conjunto de datos y los resultados de Stable Diffusion han sido objeto de un intenso debate:

Guía práctica para usuarios

Acceso: Para descargar modelos privados (SD3/3.5), cree una cuenta de Hugging Face y acepte la licencia en la página del modelo. Entonces usa huggingface-cli login antes de ejecutar cualquier tubería. El ejemplo de difusores para SD3.5 muestra precisamente este paso. Stability AI proporciona un script de GitHub (Stability-AI/sd3.5) para automatizar la búsqueda de los archivos necesarios.

Inferencia: Utilice precisión mixta (fp16 o bf16) y marcos como Torch 2.0 con torch.compile o TensorRT para velocidad. Por ejemplo, la inferencia grande SD3.5 se demuestra en bfloat16 (la precisión publicada original). Utilice valores de orientación sin clasificador ~4–7 para los modelos SD3 (contraste frente a ~7–15 en SD1/2). Para hardware con VRAM limitada: cargue un modelo a la vez (por ejemplo, no cargue el refinador con SDXL de forma predeterminada) o utilice la descarga. En GPU de 8 a 12 GB, SDXL puede ejecutarse en un tamaño de lote reducido, mientras que SD3.5 Large normalmente necesita ~16 GB o más sin optimización.

Ajustes y complementos: El ajuste fino de LoRA funciona con cualquier versión, pero los LoRA no son compatibles entre tipos de arquitectura (por ejemplo, un LoRA v1.5 no se conecta a SD3). ControlNet requiere variantes de modelo independientes; StabilityAI lanzó redes de control específicas de SD3.5 (optimizadas para TensorRT) en HF. Existen muchos adaptadores comunitarios (LoRA, modelos Dreambooth) como se ve en los árboles del modelo HF. Asegúrese siempre de que los LoRA o ControlNet coincidan con la versión del modelo base.

Todos los datos anteriores se extraen de fuentes oficiales (tarjetas modelo, documentos) o análisis acreditados. Cifras marcadas n.d. no fueron especificados por las fuentes. Citamos datos de entrenamiento y VRAM de anuncios y artículos de Stability AI; cuando no es público, lo tomamos nota. Esta instantánea es exacta al 24 de febrero de 2026.

Share This Page