Wir haben es für Sie ausprobiert

Synthesia bezeichnet sich selbst als der „beste KI-Video Generator im Jahr 2024“ und scheint auf den ersten Blick ein perfektes Tool für die Generierung von Sprechervideos mit KI-Avataren. Die meisten Reviews fallen euphorisch aus.

Benutzerfreundlichkeit, Stimmenvielfalt, Preis-Leistungs-Verhältnis und fast alle sonstigen Kriterien werden durchwegs positiv bewertet.

Aber wie schaut’s mit Sprecherstimmen in Deutsch aus – können sie überzeugen?

Wir wollten es wissen, und haben mehrere Testvideos produziert, damit Sie die Qualität auch selbst einschätzen können.

Die Software

Aber vorab eine kurze Vorstellung der Software für alle, die noch nie damit gearbeitet haben.
Synthesia ist eine Software, die Ihren eingegebenen Text in gesprochene Videos umwandelt.

Sie wählen einen virtuellen Sprecher (Avatar) aus, und die Software erstellt daraus ein Video in der von Ihnen gewünschten Sprache. Es ist einfach zu bedienen und erfordert keine herkömmlichen Videoaufnahmen.

Wichtige Funktionen und Kennzahlen:

  • KI-generierte Sprecher: Synthesia ermöglicht die Erstellung von Videos mit synthetischen Avataren, die Texte natürlich vorlesen.
  • Mehrsprachigkeit: Die Software unterstützt über 100 Sprachen.
  • 70 Avatare: Verschiedene Altersgruppen, Geschlechter und Kleidungsstile.
  • Oberfläche: Drag-and-drop-Funktionen zum Aufbau und Anpassen von Videos.
  • Anpassbare Skripte: Ermöglicht das Hochladen von benutzerdefinierten Skripten, die von den Avataren vorgetragen werden.
  • Schnelle Produktion: Erfahrene Anwender erstellen Videos mit Synthesia meist relativ schnell. „Klassische“ Sprechvideos mit „echten“ Sprechern können kaum in so kurzer Zeit produziert werden.

Anwendungsfälle

Synthesia kann für eine Vielzahl von Anwendungsfällen eingesetzt werden, die von Marketing und Bildung bis hin zu interner Unternehmenskommunikation reichen. Hier sind einige typische Anwendungsbeispiele:

  • Erklärvideos: Vereinfachung komplexer Konzepte oder Produkte für Kunden durch anschauliche Videos.
  • Schulungs- und Lernmaterialien: Erstellung von Lernvideos für Online-Kurse, Mitarbeitertraining und Bildungsplattformen.
  • Personalisierte Videos: Erzeugung individuell angepasster Videobotschaften für Kunden- oder Mitarbeiterengagement.
  • Sprachübersetzungen: Mehrsprachige Ausgabe von Content für internationale Märkte ohne zusätzlichen Aufwand für Synchronisation.
  • Unternehmensankündigungen: Integration KI-generierter Avatare in Unternehmenskommunikation für eine konsistente Markenbotschaft.
  • Kundenunterstützung und Helpdesk: Bereitstellung von Hilfsvideos zur Beantwortung häufiger Kundenanfragen.
  • Neuigkeiten und Updates: Verteilung von Neuigkeiten oder Updates des Unternehmens in einer personalisierten und ansprechenden Form.

Versuchsanordnung

In unserer Versuchsanordnung haben wir einen Text erstellt, der spezifisch darauf ausgelegt ist, die Verarbeitung und Darstellung verschiedener Aspekte eines klassischen Geschäftstextes zu testen.

Diese Aspekte umfassen:

Textelement Beschreibung
Einfacher Fließtext Durchgängiger Text, der eine typische geschäftliche Kommunikation widerspiegelt.
Fremdwörter Integration von Fachbegriffen und Jargon, um die Komplexität realer Geschäftssprache abzubilden.
Firmennamen Einbindung bekannter Unternehmensnamen, um die korrekte Wiedergabe im Kontext zu evaluieren.
Links Platzierung von Webadressen innerhalb des Textes, um die Handhabung von Hyperlinks zu prüfen.
Zahlen und Währungen Verwendung verschiedener numerischer Angaben und Währungssymbole, um den Umgang mit finanziellen und statistischen Daten zu testen.

Die Stimmen

Rein optisch haben wir einfach zwei (männlich und weiblich) Avatare ausgewählt, die den klassischen Anforderungen eines B2B Videos entsprachen – und haben nur die Stimmen variiert.

Wir haben uns alle 28 männlichen und alle 20 weiblichen Stimmen angehört und dann jeweils einige ausgewählt, die uns am besten gefallen und die Aufgaben am besten erledigt haben. Dabei spielten Klarheit, Ausdruck und Emotionalität eine große Rolle.

Diese Auswahl ist jedoch rein subjektiv und auch unserer Vorliebe für sonore Männerstimmen und voll klingende Frauenstimmen geschuldet.

WICHTIG: KEINE der deutschen Stimmen hat alle 5 Testelemente (ohne zusätzliche Eingriffe) perfekt gemeistert.
DAHER: verwenden Sie jedenfalls ausreichend Zeit darauf, die passende Stimme für Ihren Text zu finden.

Die Ergebnisse

Einfacher Fließtext

Einfacher Fließtext ist für Synthesia keine große Herausforderung. Dennoch gibt es bei der Betonung einzelner Worte mit manchen Stimmen gelegentlich Abweichungen – nicht alles klingt perfekt, aber die meisten Ergebnisse sind zufriedenstellend und wirken natürlich. Wenn man pingelig sein mag, gibt es immer Optimierungspotenzial, insbesondere bei der Nuancierung der Betonung.

Fremdwörter

Ok – ich gebe es zu, wir haben ein bisschen Bullshit-Bingo gespielt, um die Möglichkeiten von Synthesia auszureizen. Aber es ging uns um „Alltagstauglichkeit“, und diese Texte finden sich oft im echten Leben, gerade in Meetings oder Präsentationen.

Die Ergebnisse waren sehr unterschiedlich:
Während einige Stimmen die Aufgabe optimal gelöst haben, könnte man andere sogar als ‚Epic Fails‘ bezeichnen.

Darunter leider auch die EINZIGE weibliche österreichische Stimme.

Fremdwörter Fail:

 

Fremdwörter – so passt es (fast) gut:

Firmennamen

Bekannte Firmennamen stellen offensichtlich keine Herausforderung dar. Die Aussprache ist überwiegend korrekt und flüssig. Sollten Sie jedoch einen unbekannten Firmennamen verwenden, raten wir jedenfalls zum genauen Testen unterschiedlicher Stimmen.

Links

Links sind tatsächlich ein Problem, denn selten werden sie richtig ausgesprochen. Speziell mit dem in deutschen Links oft vorkommenden Minuszeichen gibt es Probleme, wie zum Beispiel bei „www.webinarfabrik.at/alles-wird-gut“.

Um diese Probleme zu vermeiden, raten wir dazu, den Avatar einfach nur „Nähere Informationen finden Sie unter dem eingeblendeten Link.“ sagen zu lassen. Den Link sollten Sie visuell einblenden, das erleichtert das Verständnis und sorgt für eine klare Kommunikation, ohne auf die korrekte Aussprache des Links angewiesen zu sein.

Zahlen und Währungen

Zahlen und Währungen sind oft wichtiger Bestandteil von Businesstexten.

Während Währungen in der Regel ohne Probleme ausgesprochen werden, kommt es vor, dass bei Zahlen manche Stimmen plötzlich ins Englische wechseln – eine durchaus überraschende Wendung.

Zahlen – Fail

Zahlen – so kann es gelingen

Um sicherzugehen, dass Zahlen korrekt ausgesprochen werden, empfiehlt es sich, Zahlen verbal auszuschreiben, also anstatt „1,19“ „eins Komma neunzehn“ zu schreiben. So funktioniert’s.

Sonstige Erkenntnisse

Unabhängig von unseren speziellen Aufgaben gilt für alle deutschsprachigen KI-generierten Stimmen von Synthesia.

Aussprache und Artikulation:

Aussprache und Artikulation sind weitgehend passend. Vokale und Konsonanten, einschließlich der Umlaute (ä, ö, ü) und des scharfen „s“ (ß), werden korrekt wiedergegeben.

Natürlichkeit und Fluss:

In der aktuellen Analyse zeigt sich eine Verbesserung im Vergleich zu früheren Bewertungen. Die Sprache klingt natürlicher und flüssiger, was darauf hindeutet, dass es Nachbesserungen gegeben hat.

Geschwindigkeit und Sprechtempo:

Die Geschwindigkeit ist, wie sie ist. Wir haben sie weitgehend passend für die meisten Anwendungen empfunden. Aber zukünftig wünschen wir uns mehr Flexibilität. Schön wäre, wenn man einzelne Sätze (Satzteile) schneller/langsamer sprechen lassen könnte.

Fazit

Synthesia überzeugt größtenteils mit korrekt artikulierten KI-Stimmen, die leicht verständlichen Text und bekannte Firmennamen souverän wiedergeben.

Die kontinuierliche Verbesserung der Software macht sie bereits zu einem nützlichen Tool für viele Anwendungen – auch in deutscher Sprache.

Bei Fremdwörtern, Zahlen und Links gibt es noch Luft nach oben.

Aber mit kreativen Lösungen wie z.B. der Umschreibung von Zahlen werden weitgehend zuverlässige Ergebnisse liefern.

Für den Großteil der Anwendungsfälle liefert Synthesia die passende Qualität.

Es ist keine Plattform für anspruchsvolle literarische Darbietungen, aber für all jene, die komplexen Content schnell und einfach vermitteln möchten, ist Synthesia eine äußerst effektive Lösung.

Wer anstelle von langen Texten auf kurze, prägnante Informationsvideos setzt, wird die Vorzüge dieser Software zu schätzen wissen.

Wenn Sie mehr über KI-generierte Sprechervideos erfahren wollen – kontaktieren Sie uns: https://www.webinarfabrik.at/kontakt/