Ein weiblicher KI-Avatar hält ein Mikrofon in der Hand und spricht in eine Kamera. Das Bild zeigt ein Studiosetting.

4 KI Videogeneratoren im Vergleich – Mit den aktuellen Entwicklungen der Text-to-Video-Plattformen (KI-Video-Generatoren) kann Video-Content rasch und effizient erstellt werden. Vier davon haben wir uns näher angeschaut.

Wenn Sie aber zuerst wissen wollen, was man eigentlich unter einem „Avatar“ versteht, dann finden Sie die Antwort in unserem Lexikon.

Was interessiert uns?
Lassen Sie uns gemeinsam herausfinden, wie sich durch neue Technologien und Methoden die Arbeitsprozesse rund um das Generieren von Sprechervideos vereinfachen lassen.

  • Was erspart man sich wirklich an Zeit?
  • Welche Produktionsschritte entfallen komplett?
  • Wie ist die Qualität der Endprodukte?
  • und für uns besonders wichtig: Wie klingen die deutschen Stimmen?

Begleiten Sie uns auf dem ersten Schritt dieser spannenden Reise zu effizienteren Arbeitsweisen.

Wir zeigen Ihnen einen Überblick:

  • Welcher KI-Video-Generator ist einen zweiten Blick wert?
  • Was leisten die KI-Video-Generatoren?
  • Wie steht´s mit den Kosten?

Warum überhaupt Videocontent?

Wir wollen nicht im Detail auf die Vorteile von Video-Content eingehen – hier nur drei wichtige Punkte:

Komplexe Themen vereinfachen:
Videos helfen, schwierige Ideen und Konzepte anschaulich und verständlich zu machen. (Ein Bild sagt mehr als 1000 Worte!)

Zeitersparnis:
Menschen nutzen Videos, um schnell Informationen aufzunehmen, anstatt lange Texte zu lesen.

Mobile Nutzung:
Aktuelle Daten zeigen, dass Smartphones für viele der bevorzugte Weg ist, Inhalte zu konsumieren. Dort bieten Videos eine passende und benutzerfreundliche Option.

Worum geht´s hier?

Wir betrachten die Effizienz und die Funktionalität unterschiedlicher KI-Video-Generatoren zur Erstellung von Avatar-Videos.

Vereinfachen diese Technologien die Produktion von Lernvideos, reduzieren sie zeitaufwendige Schritte und verbessern sie die Qualität und den Prozess der Videoerstellung?

Der Fokus liegt auf den Plattformen Synthesia, HeyGen, DI-D und DeepReel, die hinsichtlich ihrer Funktionen, Kosten und der Qualität der deutschen Sprachausgabe verglichen und bewertet werden.

Der Fokus dieses Artikels liegt auf KI-Video-Generatoren für die Erstellung von Avatar-Videos.

Solche Videos gewinnen zunehmend an Bedeutung, weil

  • Inhalte und Ablauf der Videos sind optimal steuerbar
  • das Format ist bekannt und “gelernt”
  • und speziell in Lernvideos kann man verschiedene Kompetenzlevel gut abbilden.

Außerdem entsprechen derartige Avatarvideos auch am ehesten den von uns produzierten Lernvideos im Vortragsformat und erlauben uns somit am besten die Einschätzung der “Alltagstauglichkeit” der jeweiligen Lösung.

Avatar Videos – wie genau funktioniert das?

Ein weiblicher KI-Avatar hält ein Mikrofon in der Hand und spricht in eine Kamera. Das Bild zeigt ein Studiosetting.
  1. Erstellung von Avataren:
    Die Plattformen ermöglichen die Erstellung digitaler Avatare, die menschenähnlich aussehen und sich auch so verhalten können. Diese Avatare werden durch künstliche Intelligenz angetrieben und können (eingeschränkt – wird jedoch wöchentlich besser) unterschiedliche Emotionen, Bewegungen und Sprachen darstellen.
  2. Texteingabe und Skripterstellung:
    Sie können ihren eigenen Text eingeben, der als Skript für das Video dient. Dieser Text wird analysiert, um die wichtigsten Informationen zu erfassen und um zu bestimmen, wie der Avatar sprechen und agieren soll.
  3. Sprachsynthese:
    Die Texte werden in Sprache umgewandelt, indem Text-to-Speech (TTS) Technologien verwendet werden.
  4. Video-Rendering:
    Nachdem der Avatar und das Skript fertiggestellt sind, wird das Video gerendert. Dieser Prozess beinhaltet die Animation des Avatars, sodass dieser synchron zum gesprochenen Text spricht und agiert.
  5. Anpassungen und Spezialeffekte:
    Manche Plattformen bieten die Möglichkeit zusätzliche Anpassungen vornehmen, wie das Hinzufügen von Hintergründen, Musik oder anderen audiovisuellen Effekten, um das Video weiter zu personalisieren.

Die Plattformen

Bevor wir loslegen … weiter unten gibt es Empfehlungen welche Plattform sich für welchen Anlassfall am besten eignet. (Sie können aber auch gleich hinspringen).

Synthesia ist eine Plattform zur Erstellung von AI-gesteuerten Videos, die speziell für schnelles und kosteneffizientes Video-Marketing, Schulungen und Kundenbetreuung konzipiert ist.

Die Technologie ermöglicht die Nutzung von über 140 diversen AI-Avataren und die Erstellung von Voiceovers in mehr als 120 Sprachen.

Nutzer können ohne vorherige Videoproduktionserfahrung professionelle Videos generieren, die für ein breites internationales Publikum geeignet sind.

Das Tool bietet umfangreiche Integrationsfähigkeit mit anderen Tools.

Bild und Verlinkung zu Synthesia. Synthesia ist eine KI Videogenerierungsplattform.

Einsatzgebiet:
Erstellung von professionellen Text-to-Speech Videos – auch in vielen Sprachvarianten.
Schwerpunkt fertige KI-Avatare, die bereits auf der Plattform vorhanden sind und weniger (obwohl auch möglich) customized Avatare.

Was uns gut gefallen hat:

  • Die Möglichkeit, dass mehrere Avatare einen Dialog halten.
  • Eigener Videoplayer, der über einen Video-Link auch Auto-Update ermöglicht.
  • Umfangreiche Gestaltungsmöglichkeiten (Hintergründe, Aufzählungen, Musikuntermalung usw.).

Was uns nicht gefallen hat:

  • Nicht erlaubt ist die Nutzung der Videos mit KI-Avataren für bezahlte Werbung (z.B. Facebook-Anzeigen). Nur customized Avatare kann man überall verwenden.
  • Reduzierte Anzahl der Avatare bei Starter und Creator Plan (70+/90+ statt 140+).
  • Sehr unterschiedliche Qualität der Avatare.

Preisemodelle:
Monatlich von “Starter” (20 Euro) bis “Creator” (59 Euro)

Preis pro Videominute:
ca. 2 Euro pro Minute

Kostenlose Testversion:
Ja – 3 Videominuten im Monat

Sprachen:
Unterstützt 120+ Sprachen.
Wie klingen die deutschen Stimmen: Teilweise gut, hier ist noch Luft nach oben (Link zu eigenem Artikel)

Avatare:
ca. 140+ KI-Avatare (Je nach Preismodell sind unterschiedlich viele nutzbar).

 

HeyGen

HeyGen ist eine Plattform zur Erstellung von KI-generierten Videos, die Nutzern ermöglicht schnell und einfach hochwertige Videos zu produzieren.

Sie bietet eine Vielzahl von AI-Avataren und Sprachoptionen in über 40 Sprachen, um personalisierte Inhalte zu erstellen.

Die Plattform unterstützt mehrere Anwendungsfälle, darunter Verkaufsförderung, Content-Marketing und Schulungen.

Besonders hervorzuheben sind die umfassenden Anpassungsmöglichkeiten für Avatare und die Integration von Text-to-Speech-Technologie, die natürliche und professionelle Voiceovers ermöglicht.

Das Bild zeigt die HeyGen Plattform. Gezeigt ist ein Avatar und ein Chatbot.

Einsatzgebiet:
Erstellung von professionellen Text-to-Speech Videos – auch in vielen Sprachvarianten.
Eignet sich gut für mehrsprachige Videos (auch für Videos, bei denen “echte Menschen” aufgenommen wurden und danach in anderen Sprachen synchronisiert werden).
Mit dem Zusatzmodul “Streaming Avatar” können Sie mit Ihrem Avatar live chatten – beeindruckend und funktioniert schon ziemlich gut.
Mit dem Zusatzmodul “Personalized Video” können Sie ein Template-Video personalisieren und ein Video produzieren, in dem Ihr Kunde von Ihrem Avatar persönlich und mit Namen begrüßt wird.

Was uns gut gefallen hat:

  • Die Video-Übersetzungsfunktion ist sehr ausgereift.
  • Im HeyGen AI-Studio ist das Erstellen von komplexen Avatar-Videos möglich.
  • Zusatzmodule wie Streaming Avatar oder Personalized Video bieten außergewöhnliche Möglichkeiten.

Was uns nicht gefallen hat:

  • Wenig Auswahl an deutschen Stimmen.
  • Customized Studio Avatare sind sehr teuer – 1.000,- Euro jährlich.
  • Uns haben die Avatare nicht gefallen (ist aber Geschmackssache ;-))

Preismodelle:
Monatlich von “Creator” (24 Euro) bis “Team” (120 Euro)

Preis pro Videominute:
je nach Plan von ca. 0,65 bis ca. 4 Euro pro Minute

Kostenlose Testversion:
Ja – aber nur 1 Minute

Sprachen:
Unterstützt 40+ Sprachen.

Wie klingen die deutschen Stimmen:
Haben wir schon viel besser gehört.

Avatare:
150+ KI-Avatare (aber davon sind sehr viele doppelt – jeweils nur anders bekleidet).

DI-D

Das Creative Reality™ Studio von D-ID nutzt KI-Technologie, um aus Bildern und Texten personalisierte Videos zu erstellen.

Nutzer können aus einer Reihe von realistischen oder illustrierten Gesichtern wählen oder eigene Bilder hochladen.

Die Plattform ermöglicht das Erstellen von Avataren mit angepassten Skripten und Stimmen. Videos werden schnell in MP4-Dateien umgewandelt und können vielseitig eingesetzt werden.

Dieses Tool bietet eine kosteneffektive Methode, um interaktive und ansprechende Videoinhalte zu generieren.

Benutzer können eigene Skripte hochladen, die dann von den Avataren visualisiert und verbalisiert werden.

Zu sehen ist ein männlicher Avatar auf der D-iD-Plattform. D-iD ist eine Plattform, die mit KI Avatarvideos erstellt.

Einsatzgebiet:
Tool zur Erstellung von einfachen Text-to-Speech Videos ohne zusätzlichen Animationen. Generierung von einfachen Avataren durch Hochladen von Bildern (hier ist noch Luft nach oben).

Was uns gut gefallen hat:

  • Es gibt ein Add-In für MS PowerPoint mit dem Sie Avatarvideos direkt in Ihren Folien einbetten und anpassen können.
  • Einfache Generierung von eigenen illustrierten Avataren (Comic-Gesichter) möglich.
  • Sie können eigene Sprachfiles hochladen und ein lippensynchrones Avatarvideo generieren.

Was uns nicht gefallen hat:

  • Nicht besonders stabil (ist uns mehrere Male „abgestürzt”).
  • Wenig Möglichkeiten Hintergründe, Einblendungen, Hintergrundmusik u.a. direkt auf der Plattform zu verändern.

Preismodelle:
Monatlich von “Lite” (4,70 Euro) bis “Advanced” (189 Euro)

Preis pro Videominute:
je nach Plan von ca. 0,50 bis ca. 1 Euro pro Minute

Kostenlose Testversion:
Ja – max. 5 min. Video

Sprachen:
Unterstützt 120+ Sprachen.

Wie klingen die deutschen Stimmen:
Teilweise OK mit Luft nach oben

Avatare:
20+ KI-Avatare

DeepReel

DeepReel bietet eine innovative Plattform zur Erstellung von AI-generierten Videos.

Der Fokus von DeepReel liegt weniger im Arbeiten mit vordefinierten KI-Avataren sondern eher auf der Erstellung von benutzerdefinierten (customized) Avataren.

Nutzer haben die Möglichkeit individuelle Avatare zu erstellen, die ihre Stimme und ihr Aussehen widerspiegeln, um personalisierte Videos in mehr als 30 Sprachen zu generieren.

Dabei gibt es 3 Varianten (webcam, mobile, studio).

Zu sehen ist der KI-Videogenerator DeepReel. Abgebildet ist ein weiblicher Avatar.

Einsatzgebiet:
Aktuell gibt es ca. 20 KI-Avatare zur Auswahl. Obwohl die deutschen Stimmen dieser Avatare teilweise von ausgezeichneter Qualität und kaum von echten Stimmen zu unterscheiden sind, empfehlen wir allen, die lieber mit KI-Avataren, arbeiten andere Plattformen. Auf dieser Plattform gibt es eben nur sehr wenige Avatare und die Stimmen sind den einzelnen Avataren fix zugeordnet und nicht austauschbar.
Wenn Sie aber einen Avatar von sich selbst erstellen wollen und damit Video produzieren dann sind Sie hier richtig.

Was uns gut gefallen hat:

  • Einfache Bedienoberfläche
  • Sehr natürliche deutsche Sprache

Was uns nicht gefallen hat:

  • Nicht nur die Erstellung des Videos verursacht Kosten, sondern auch jede Vorschau verbraucht zwei Credits.
  • Den einzelnen KI-Avatare sind die Stimmen fix zugeordnet.

Preismodelle:
Monatlich von “Starter” (1,95 Euro) bis “Business” (199 Euro)

Preis pro Videominute:
ca. 2 Euro pro Minute

Kostenlose Testversion:
Ja

Sprachen:
Unterstützt 30+ Sprachen.

Wie klingen die deutschen Stimmen:
Teilweise ausgezeichnet! (wir sind begeistert)

Avatare:
ca. 20 KI-Avatare – leider mit fix zugeordneten Stimmen

 

Zusammenfassung:

Potenzial für Effizienzsteigerung:
Die neuen Text-to-Video-Plattformen bieten die Möglichkeit, Video-Content schneller und möglicherweise kosteneffizienter als traditionelle Methoden zu erstellen.

Anwendungsgebiete:
Die Technologie eignet sich für verschiedene Bereiche wie Marketing, Schulungen, Kundenbetreuung und die Erstellung von multilingualen Inhalten.

Arten von Avataren:
Während manche Plattformen eine große Auswahl an vorgefertigten KI-Avataren bieten, ermöglichen andere die Erstellung von personalisierten Avataren, die spezifischen Bedürfnissen angepasst werden können.

Sprachsynthese und -qualität:
Die generierten deutschen Stimmen variieren in ihrer Qualität und es herrscht noch Verbesserungsbedarf. Fast alle sind vom Inhalt und der Aussprache richtig, es fehlt jedoch an den “Zwischentönen” und den “Emotionen” (Link zum Synthesia Artikel)

Preismodelle:
Die Plattformen bieten unterschiedliche Preismodelle, aber grundsätzlich kann man mit ca. 2-3 Euro pro generierter Videominute rechnen.

Funktionen und Limitationen:
Die Plattformen bieten diverse Zusatzfunktionen wie Dialoge zwischen mehreren Avataren, Anpassungsmöglichkeiten und Sprachoptionen. Einige haben jedoch Einschränkungen hinsichtlich der Nutzung (z.B. in bezahlter Werbung) oder bieten geringere Anpassungsfähigkeiten. Bevor sie loslegen testen Sie die Plattformen – die Tücke liegt oft im Detail.

Testmöglichkeiten:
Alle genannten Plattformen bieten kostenlose Testversionen, die es den Nutzern ermöglichen, die Dienste auszuprobieren, bevor sie sich für ein Abo entscheiden.

 

Fazit

KI-gestützte Videogenerierungsplattformen bieten erhebliche Vorteile bei der Erstellung von Avatar-Videos.
Sind diese eine Revolution? Wir meinen: JA (oder knapp davor :-))
Die Möglichkeiten der Video-Content-Creation haben sich vervielfacht.

Speziell, wenn es um

  • Geschwindigkeit der Produktion
  • nachträgliche Veränderung des Inhalts und
  • Mehrsprachigkeit

geht, sehen wir einen Quantensprung gegenüber den “klassischen” Möglichkeiten der Videoproduktion.

Und wie schaut´s mit der deutschen Sprachqualität aus?
Unterschiedlich – aber die Fortschritte sind exponentiell.
Vergleicht man die heutigen Stimmen mit denen vor 6 Monaten, muss man sagen „wir sind fast am Ziel”.

Empfehlungen

Unterschiedliche Plattformen für unterschiedliche Aufgaben. Hier unserer Empfehlungen.
Berichten sie über Ihre Erfahrungen.

Aufgabe

Plattform

Sie möchten für Ihre internationalen Mitarbeiter einheitliche Schulungsmaterialien in verschiedenen Sprachen erstellen. Synthesia, Heygen
Sie haben bereits eine Vielzahl von Lernvideos produziert und möchten diese in verschiedene Sprachen übersetzen und lippensynchron überarbeiten. Heygen
Sie möchten Ihre Inhalte selber sprechen, haben aber keine Lust vor die Kamera zu treten (auch weil man Audio viel einfacher nachbearbeiten kann als Video). D-ID
Sie möchten sich zu überschaubaren Kosten als Avatar “verewigen” und Ihre “eigenen” Videos produzieren. DeepReel
Sie möchten den aktuellen Stand Ihres Projektes nicht mehr als PowerPoint sondern als Video präsentieren. Synthesia, HeyDen, D-ID
Sie möchten Ihren Kunden ein Video mit personalisierten Geburtstagsglückwünschen zusenden (mit Namensnennung und z.B. Bezug auf Ihren letzten Kontakt). HeyGen

Sie wollen mehr wissen?
Kontaktieren Sie den Autor unter muffat@webinarfabrik.at oder +43 660 277 19 66