Und um es vorwegzunehmen: Eine echte Empfehlung, es selbst auszuprobieren!

Die Digitalisierung hat viele neue Werkzeuge hervorgebracht – Bilder, Texte und Videos lassen sich heute bereits in beeindruckender Qualität mit Künstlicher Intelligenz erstellen. Doch ein Bereich wurde lange Zeit vernachlässigt: die Stimme. Genau hier setzt ElevenLabs an. Das 2022 in den USA gegründete Start-up – mit Standorten in New York und seit 2023 auch in London – hat sich innerhalb kürzester Zeit zum führenden Anbieter für realistisch klingende KI-Stimmen entwickelt. Die Plattform gilt heute als internationaler Maßstab, wenn es darum geht, Texte in natürlich klingende Sprache umzuwandeln oder sogar echte Stimmen zu klonen.

Für Marketer in Österreich eröffnet das spannende Möglichkeiten: Mit ElevenLabs lassen sich deutschsprachige Inhalte in Sekunden zu gesprochenen Audiodateien verwandeln – ohne Studio, ohne Sprecherin oder Sprecher und ohne großen Produktionsaufwand. Aus einem Blogartikel wird ein Audio-Post, ein Newsletter lässt sich zusätzlich als Hörversion verschicken, und Social-Media-Beiträge können mit Voice-over noch stärker wirken. Besonders interessant ist die Möglichkeit, eigene Stimmen zu klonen – sei es die Stimme einer Führungskraft für regelmäßige Botschaften an Kund*innen und Mitarbeiter*innen oder die Stimme einer Marke, die dadurch unverwechselbar wird.

Das System überzeugt vor allem durch seine Natürlichkeit. Im Unterschied zu älteren Sprachgeneratoren, die oft maschinell klingen, schafft es ElevenLabs, Stimmen mit fließender Intonation, authentischer Betonung und sogar kleinen Atempausen inklusive “spürbarem Luftholen” zu erzeugen. In unseren Tests war es oft kaum möglich, echte von künstlichen Stimmen zu unterscheiden. Dazu kommt die Geschwindigkeit: Inhalte, die früher Tage und teure Studios gebraucht hätten, sind in wenigen Minuten produziert. Gerade für Content-Marketing ein enormer Vorteil, da sich vorhandene Texte schnell in neue Formate übertragen lassen – ein klassisches Beispiel für „Content Recycling“.

Natürlich ersetzt die Technik nicht die menschliche Kreativität. Storytelling, Konzeption und emotionale Ansprache bleiben Kernaufgaben von Menschen. Auch Authentizität bleibt ein wichtiger Faktor: Für besonders emotionale oder künstlerische Kampagnen ist eine professionelle Sprecherin oder ein Schauspieler nach wie vor oft die bessere Wahl. Für viele Marketingzwecke – ob im B2B oder B2C – bietet ElevenLabs jedoch ein ideales Zusammenspiel von Effizienz und Qualität.

Andere Anbieter wie Microsoft Azure Speech, Amazon Polly oder Google Cloud Text-to-Speech existieren zwar ebenfalls, richten sich jedoch stärker an technische Anwendungen und sind weniger individuell. Plattformen wie Descript oder WellSaid Labs sprechen vor allem Podcaster*innen oder E-Learning-Anbieter an. ElevenLabs hingegen hat sich als Plattform etabliert, die sowohl Kreativen als auch Unternehmen die beste Balance aus Benutzerfreundlichkeit, Sprachvielfalt und Qualität bietet.

Der Nutzen für Marketer liegt klar auf der Hand: Sprache wird zur natürlichen Erweiterung von Content. Texte, die bisher nur gelesen wurden, können künftig auch gehört werden – egal ob auf Websites, in Newslettern oder auf Social Media.

Neben der reinen Sprachausgabe bietet ElevenLabs inzwischen auch Voice-Agenten, die wie digitale Telefonassistenten funktionieren. Sie können eingehende Anrufe annehmen, einfache Anliegen beantworten, Informationen abfragen oder weiterleiten, Outbound-Anrufe für Erinnerungen oder Umfragen durchführen und dabei sogar mehrsprachig arbeiten. Dank Integration in CRM- oder Helpdesk-Systeme lassen sich kleine Routineaufgaben automatisieren – von der Terminvereinbarung bis zur Leadqualifizierung. Damit wird aus einer reinen Text-zu-Sprache-Plattform ein flexibles Tool für Kundendialog und Service.

Eigene Erfahrung: Wer einen Klon seiner Stimme erzeugen möchte, muss zunächst Trainingsmaterial aufnehmen – mindestens 30 Minuten, empfohlen werden 2 Stunden. Aber (!) – nicht einfach nur gelangweilt vorlesen ist gefordert! Es geht darum, in den zwei Stunden mit Emotion, Betonung, Begeisterung zu sprechen, sonst erhält man trotz moderner Technik nur eine “Roboterstimmenparodie aus den 50ern”, denn: Woher soll die AI denn wissen, wie und wo man die Emotionen in seinen Ductus legt. Ich habe mit rund 40 Minuten begonnen, und das Ergebnis war bereits verblüffend: Selbst meine Familie konnte kaum unterscheiden, ob es sich um meine echte oder die künstlich generierte Stimme handelte. Die erzeugte Stimme umfasst dabei nicht nur Klangfarbe, sondern auch Intonation und Modulation.

Die Kosten sind überschaubar: Ab etwa 35 Euro für zwei Monate ist man dabei. Wir empfehlen diese Investition jeder Marketingabteilung – denn man weiß nie, wann die Nutzung im Marketing-Alltag plötzlich wertvoll wird. Zudem braucht es einige Wochen, um sich mit allen Features und möglichen Stolpersteinen vertraut zu machen.

A propos Stolpersteine: In der Praxis zeigte sich, dass längere Downloads (über ca. 3 Minuten) nur eingeschränkt möglich waren. Für Blogbeiträge ist das zu wenig – weshalb unsere Audio-Versionen aktuell in mehrere Dateien aufgeteilt werden. Positiv ist, dass sich Stimmen flexibel anpassen lassen: schneller, langsamer, tiefer oder höher. Auch Mischungen aus der eigenen Stimme und einer neutral-professionellen Stimme sind möglich. Wer die Einstellung ausschließlich auf „eigene Stimme“ setzt, erlebt oft einen Aha-Moment: „Huch, das bin ja wirklich ich – aber das habe ich so nie gesagt!“


Ein praktischer Tipp zum Schluss: Für die Weiterverwendung oder den Versand von MP3-Dateien empfiehlt es sich, diese zu verkleinern. Das funktioniert problemlos und ohne merkbaren Qualitätsverlust etwa mit Tools wie www.mp3smaller.com.

Sie wollen mehr wissen? Sie wollen mit mir über ElevenLabs oder ähnliche Apps sprechen?
Ich freue mich über Ihre Kontaktaufnahme:
thomas.neumann@aboutmedia.at

Bild: Manchmal musss man für ein gutes Ergebnis einen Trick anwenden. 😉 “Be zwei Ce” klingt doch komisch. Dafür wurde allerdings das Akronym “DSGVO” automatisch als “Datenschutzgrundverordnung” ausgesprochen (im aktuellen Artikel über Apple).