Cómo crear avatares virtuales parlantes

Esta guía brinda un flujo de trabajo práctico de un extremo a otro para crear videos de avatares virtuales parlantes, similar a los tutoriales y demostraciones de creadores modernos.

Actualizado: 22 de febrero de 2026.

Instrucciones paso a paso

  1. Escribir guión y plan de rodaje.

    Un guión breve hablado dividido en escenas (gancho, cuerpo, CTA).

    Cómo hacerlo:

    • Defina un espectador objetivo y una acción deseada (seguir, hacer clic, comentar, comprar).
    • Escriba un guión de 20 a 60 segundos utilizando lenguaje hablado, no el estilo de un blog.
    • Divida el guión en bloques de escena: gancho (0-3), valor (3-20), CTA (últimos 3-5).
    • Cree una lista de tomas que asigne cada línea a un fondo visual o una señal de material adicional.

    Controles de calidad:

    • Léelo en voz alta una vez. Elimine las líneas que suenen antinaturales.
    • Mantenga una idea por oración; Evite frases largas y con varias cláusulas.
    • Objetivo: ritmo equivalente a 120-160 palabras por minuto.

    Herramientas: ChatGPT , Claude

  2. Crea o elige una voz

    Voz de narración natural (stock o clonada) alineada con el tono de la marca.

    Cómo hacerlo:

    • Elija el perfil de voz por audiencia: autorizada, amigable, tutorial o ventas.
    • Genere voz en fragmentos cortos (1 o 2 oraciones) para volver a tomarlos más fácilmente.
    • Ajuste la velocidad, la estabilidad y el estilo hasta que la pronunciación sea consistente.
    • Exporta WAV/MP3 limpio sin música de fondo.

    Controles de calidad:

    • Normalice el volumen a un nivel constante antes de la generación del avatar.
    • Corregir nombres/marcas con ortografía fonética si se pronuncian mal.
    • Escuche la cadencia robótica en oraciones largas y divida si es necesario.
    ComfyUI TTS workflow with Qwen3 TTS engine, text generation node, and audio export node
    Ejemplo de ComfyUI TTS: del nodo del motor Qwen3-TTS al nodo de generación de texto al nodo de guardado de MP3.

    Audio de salida de muestra (Qwen3 TTS):

    Archivo directo: cómodoui-qwen3-tts-sample.mp3

    Herramientas: ElevenLabs , Murf , Piper TTS (local) , ComfyUI TTS (local)

  3. Crear cara/personaje de avatar

    Un retrato/imagen de personaje limpio para impulsar la animación parlante.

    Cómo hacerlo:

    • Genere un retrato de frente con expresión neutra y una mandíbula clara.
    • Utilice un fondo simple e iluminación uniforme para lograr un mejor seguimiento de los labios y la barbilla.
    • Cree de 3 a 5 variantes y elija una con la mejor simetría facial y claridad ocular.
    • Exporte una imagen de alta resolución (al menos 1024 px en el lado más corto).

    Controles de calidad:

    • Evite ángulos laterales pronunciados, gafas de sol o cabello que cubra la boca.
    • Evite estilizaciones extremas que distorsionen la zona de los labios y los dientes.
    • Mantenga el aspecto del avatar coherente con la marca de su canal.
    ComfyUI character creation workflow for avatar face generation
    Ejemplo de creación de personajes de ComfyUI para generar caras de avatar limpias antes de la sincronización de labios.

    Herramientas: Midjourney , Leonardo AI , Adobe Firefly , ComfyUI (local)

  4. Generar video de avatar parlante

    Avatar sincronizado con los labios que habla tu guión/audio.

    Cómo hacerlo:

    • Cargue la pista de voz final y la imagen de la cara seleccionada al generador de avatar.
    • Establezca el encuadre (espacio libre, recorte de hombros, línea de ojos) para el formato de plataforma.
    • Represente primero un clip de prueba corto (5-10 segundos) y luego el guión completo.
    • Si la sincronización de labios varía, vuelva a renderizar con fragmentos de oraciones más cortos.

    Controles de calidad:

    • Compruebe el cierre de la boca en consonantes duras (P/B/M) y vocales largas.
    • Verifique la frecuencia del parpadeo y el movimiento de los ojos para detectar artefactos no naturales.
    • Rechace las salidas con jitter evidente o deformación del marco.

    Herramientas: HolaGen , síntesis , D-ID , tavus

  5. Ruta de avatar local/gratuita (opcional)

    Flujo de trabajo de retratos parlantes autohospedado o sin conexión.

    Cómo hacerlo:

    • Prepare el entorno local (controladores de GPU, entorno de Python, activos del modelo).
    • Primero ejecute un flujo de trabajo de referencia en LivePortrait o SadTalker.
    • Utilice plantillas de ComfyUI si desea iteraciones basadas en gráficos reutilizables.
    • Guarde los ajustes preestablecidos de trabajo para resolución, velocidad de fotogramas y sincronización de audio.

    Controles de calidad:

    • Valide el uso de VRAM antes de ejecutar el lote.
    • Mantenga los recursos de origen en una estructura de carpetas predecible para ejecuciones repetidas.
    • Versione el JSON de su flujo de trabajo para que los resultados sean reproducibles.
    ComfyUI speech-to-video workflow interface for avatar video generation
    Ejemplo de interfaz de usuario de voz a video de ComfyUI para convertir canales de narración en salidas de video.
    Vídeo de muestra generado a partir del flujo de trabajo de conversión de voz a vídeo de ComfyUI.

    Herramientas: Retrato en vivo , SadTalker , ComfyUI

  6. Editar, subtítulos y exportar

    Vídeo listo para plataforma con subtítulos y ritmo ajustado para la retención.

    Cómo hacerlo:

    • Corta las pausas y recorta los primeros 0,3-0,8 segundos para empezar más rápido.
    • Agregue subtítulos grabados con alto contraste y tamaño grande apto para dispositivos móviles.
    • Inserte material adicional, capturas de pantalla o notas de texto para enfatizar.
    • Exporte variantes separadas para cortos/carretes/TikTok y feeds horizontales.

    Controles de calidad:

    • Revise los primeros 3 segundos: gancho claro, texto legible, movimiento inmediato.
    • Compruebe la variación del tiempo de los subtítulos en frases rápidas.
    • Confirme los márgenes seguros finales para que el texto no quede oculto en la interfaz de usuario de la plataforma.

    Herramientas: Descript , CapCut , VEED

Herramientas necesarias (matriz rápida)

Escenario Herramientas en la nube Herramientas locales/gratuitas Nota práctica
Guion ChatGPT, Claude Ollama + modelos locales Mantenga un guión breve y amigable para el lenguaje hablado.
Voz ElevenLabs, Murf Piper TTS, Coqui TTS, Kokoro TTS, ComfyUI TTS Normalice el volumen antes de la generación del avatar.
Creación de cara de avatar Midjourney, Leonardo AI, Adobe Firefly ComfyUI, Fooocus, AUTOMATIC1111 Genere retratos frontales con luz limpia para obtener mejores resultados de sincronización de labios.
Avatar HeyGen, Síntesis, D-ID, Tavus LivePortrait, SadTalker, flujos de trabajo ComfyUI Utilice retratos de fuente limpia y encuadres neutros.
Editar Descript, VEED, CapCut DaVinci Resolve + herramientas de subtítulos locales Recorta el aire muerto y agrega transiciones de escenas.

Pila inicial mínima

Páginas relacionadas: servicios de avatares virtuales · Alternativas a HeyGen · Alternativas a ComfyUI

Share This Page