So erstellen Sie virtuelle sprechende Avatare

Dieser Leitfaden bietet einen praktischen End-to-End-Workflow zum Erstellen virtueller sprechender Avatar-Videos, ähnlich den modernen Tutorials und Demos für YouTuber.

Aktualisiert: 22. Februar 2026.

Schritt-für-Schritt-Anleitung

  1. Drehbuch und Drehplan schreiben

    Ein kurzes, gesprochenes Drehbuch, aufgeteilt in Szenen (Hook, Body, CTA).

    So geht's:

    • Definieren Sie einen Zielpublikum und eine gewünschte Aktion (Folgen, Klicken, Kommentieren, Kaufen).
    • Schreiben Sie ein 20–60 Sekunden langes Skript in gesprochener Sprache, nicht im Blog-Stil.
    • Teilen Sie das Skript in Szenenblöcke auf: Hook (0–3 Sekunden), Wert (3–20 Sekunden), CTA (letzte 3–5 Sekunden).
    • Erstellen Sie eine Shot-Liste, die jede Zeile einem visuellen Hintergrund oder einem B-Roll-Cue zuordnet.

    Qualitätsprüfungen:

    • Lesen Sie es einmal laut vor. Entfernen Sie unnatürlich klingende Zeilen.
    • Behalten Sie eine Idee pro Satz bei; Vermeiden Sie lange Phrasen mit mehreren Sätzen.
    • Zielen Sie auf ein entsprechendes Tempo von 120–160 Wörtern pro Minute.

    Werkzeuge: ChatGPT , Claude

  2. Erstellen oder wählen Sie eine Stimme aus

    Natürliche Erzählstimme (Standard oder geklont), abgestimmt auf den Markenton.

    So geht's:

    • Wählen Sie das Sprachprofil nach Zielgruppe: maßgeblich, freundlich, lehrreich oder verkaufsfördernd.
    • Erzeugen Sie die Stimme in kurzen Abschnitten (1–2 Sätze), um die Wiederholung zu erleichtern.
    • Passen Sie Geschwindigkeit, Stabilität und Stil an, bis die Aussprache konsistent ist.
    • Exportieren Sie sauberes WAV/MP3 ohne Hintergrundmusik.

    Qualitätsprüfungen:

    • Normalisieren Sie die Lautstärke vor der Avatar-Generierung auf ein einheitliches Niveau.
    • Korrigieren Sie Namen/Marken mit phonetischer Schreibweise, wenn sie falsch ausgesprochen werden.
    • Achten Sie bei langen Sätzen auf den Roboterrhythmus und teilen Sie ihn bei Bedarf auf.
    ComfyUI TTS workflow with Qwen3 TTS engine, text generation node, and audio export node
    ComfyUI TTS-Beispiel: Qwen3-TTS-Engine-Knoten zum Textgenerierungsknoten zum MP3-Speicherknoten.

    Beispiel-Audioausgabe (Qwen3 TTS):

    Direkte Datei: bequemui-qwen3-tts-sample.mp3

    Werkzeuge: ElevenLabs , Murf , Piper TTS (lokal) , ComfyUI TTS (lokal)

  3. Erstellen Sie ein Avatar-Gesicht/eine Avatar-Figur

    Ein sauberes Porträt-/Charakterbild, um sprechende Animationen voranzutreiben.

    So geht's:

    • Erstellen Sie ein nach vorne gerichtetes Porträt mit neutralem Gesichtsausdruck und klarer Kinnpartie.
    • Verwenden Sie einen einfachen Hintergrund und eine gleichmäßige Beleuchtung für eine bessere Lippen- und Kinnverfolgung.
    • Erstellen Sie 3–5 Varianten und wählen Sie eine mit der besten Gesichtssymmetrie und Augenklarheit aus.
    • Exportieren Sie ein hochauflösendes Bild (mindestens 1024 Pixel auf der kürzesten Seite).

    Qualitätsprüfungen:

    • Vermeiden Sie starke Seitenwinkel, Sonnenbrillen oder Haare, die den Mund bedecken.
    • Vermeiden Sie extreme Stilisierungen, die den Lippen- und Zahnbereich verzerren.
    • Sorgen Sie dafür, dass das Aussehen Ihres Avatars mit der Marke Ihres Kanals übereinstimmt.
    ComfyUI character creation workflow for avatar face generation
    Beispiel für die ComfyUI-Charaktererstellung zum Generieren sauberer Avatar-Gesichter vor der Lippensynchronisation.

    Werkzeuge: Midjourney , Leonardo AI , Adobe Firefly , ComfyUI (lokal)

  4. Erzeugen Sie ein sprechendes Avatar-Video

    Lippensynchronisierter Avatar, der Ihr Skript/Audio spricht.

    So geht's:

    • Laden Sie die endgültige Sprachspur und das ausgewählte Gesichtsbild in den Avatar-Generator hoch.
    • Stellen Sie den Rahmen (Kopffreiheit, Schulterausschnitt, Augenlinie) für das Plattformformat ein.
    • Rendern Sie zuerst einen kurzen Testclip (5–10 Sekunden) und dann das vollständige Skript.
    • Wenn die Lippensynchronisation abweicht, rendern Sie den Text mit kürzeren Satzteilen erneut.

    Qualitätsprüfungen:

    • Überprüfen Sie den Mundschluss bei harten Konsonanten (P/B/M) und langen Vokalen.
    • Überprüfen Sie die Blinzelfrequenz und die Augenbewegung auf unnatürliche Artefakte.
    • Lehnen Sie Ausgaben mit offensichtlichem Chin-Jitter oder Frame-Warping ab.

    Werkzeuge: HeyGen , Synthesia , D-ID , Tavus

  5. Lokaler/freier Avatar-Pfad (optional)

    Offline- oder selbstgehosteter Workflow für sprechende Porträts.

    So geht's:

    • Bereiten Sie die lokale Umgebung vor (GPU-Treiber, Python-Umgebung, Modellressourcen).
    • Führen Sie zunächst einen Basis-Workflow in LivePortrait oder SadTalker aus.
    • Verwenden Sie ComfyUI-Vorlagen, wenn Sie wiederverwendbare diagrammbasierte Iterationen wünschen.
    • Speichern Sie Arbeitsvoreinstellungen für Auflösung, Bildrate und Audiosynchronisierung.

    Qualitätsprüfungen:

    • Überprüfen Sie die VRAM-Nutzung vor Batch-Ausführungen.
    • Bewahren Sie Quellressourcen für wiederholte Ausführungen in einer vorhersehbaren Ordnerstruktur auf.
    • Versionieren Sie Ihren Workflow im JSON-Format, damit die Ergebnisse reproduzierbar sind.
    ComfyUI speech-to-video workflow interface for avatar video generation
    ComfyUI-Sprach-zu-Video-UI-Beispiel zum Umwandeln von Erzählpipelines in Videoausgaben.
    Generiertes Beispielvideo aus dem ComfyUI-Sprach-zu-Video-Workflow.

    Werkzeuge: LivePortrait , SadTalker , ComfyUI

  6. Bearbeiten, beschriften und exportieren

    Für die Plattform geeignetes Video mit Untertiteln und Tempo, das auf die Aufbewahrung abgestimmt ist.

    So geht's:

    • Verkürzen Sie Pausen und kürzen Sie die ersten 0,3–0,8 Sekunden, um schneller zu beginnen.
    • Fügen Sie eingebrannte Untertitel mit hohem Kontrast und großer, für Mobilgeräte geeigneter Größe hinzu.
    • Fügen Sie B-Rolls, Screenshots oder Texthinweise zur Hervorhebung ein.
    • Exportieren Sie separate Varianten für Shorts/Reels/TikTok und Querformat-Feeds.

    Qualitätsprüfungen:

    • Überprüfen Sie die ersten 3 Sekunden: klarer Haken, lesbarer Text, sofortige Bewegung.
    • Überprüfen Sie die Timing-Drift der Untertitel bei schnellen Phrasen.
    • Bestätigen Sie die endgültigen sicheren Ränder, damit der Text nicht von der Plattform-Benutzeroberfläche ausgeblendet wird.

    Werkzeuge: Descript , CapCut , VEED

Benötigte Werkzeuge (Kurzmatrix)

Bühne Cloud-Tools Lokale/kostenlose Tools Praktischer Hinweis
Skript ChatGPT, Claude Ollama + lokale Modelle Halten Sie das Skript kurz und für die gesprochene Sprache geeignet.
Stimme ElevenLabs, Murf Piper TTS, Coqui TTS, Kokoro TTS, ComfyUI TTS Normalisieren Sie die Lautstärke vor der Avatar-Generierung.
Erstellung eines Avatar-Gesichts Midjourney, Leonardo AI, Adobe Firefly ComfyUI, Fooocus, AUTOMATIC1111 Erstellen Sie ein nach vorne gerichtetes Porträt mit klarem Licht für beste Lippensynchronisationsergebnisse.
Avatar HeyGen, Synthesia, D-ID, Tavus LivePortrait-, SadTalker- und ComfyUI-Workflows Verwenden Sie ein sauberes Quellporträt und einen neutralen Rahmen.
Bearbeiten Descript, VEED, CapCut DaVinci Resolve + lokale Untertitel-Tools Schneiden Sie tote Luft ab und fügen Sie Szenenübergänge hinzu.

Minimaler Starter-Stack

Verwandte Seiten: Dienstleistungen für virtuelle Avatare · HeyGen-Alternativen · ComfyUI-Alternativen

Share This Page