AI Voice CloningSprachroboter kann Stimmen imitieren

30. Januar 2018

Adobe, Google und die Macher von der Software Lyrebird arbeiten daran, Audioaufnahmen zu produzieren, die menschliche Stimmen imitieren. Das birgt große Chancen - aber auch einige Gefahren.

Deutschlandfunk-Nova-Reporter Christoph Sterz hat 150 Sätze in englischer Sprache mit der Software Lyrebird eingesprochen. Danach analysiert die Software Christophs Stimme. Jetzt kann er jedes beliebige Wort oder jeden beliebigen Satz in die Software eingeben und sie produziert ihm ein Audio, das genauso klingt wie Christoph. Also sozusagen ein Fake-Audio erstellt - einen Satz, den unser Reporter aber nie so von sich gegeben hat.

Die Software des Start-ups aus Montreal steckt noch in ihren Anfängen, sodass es leicht ist, den Unterschied zwischen dem Original und dem Fake zu hören. Allerdings arbeitet nicht nur Lyrebird an der Entwicklung dieser Technologie - auch große Unternehmen wie Adobe und Google entwickeln Audiosoftware.

"Man wird nicht ausschließen können, dass auch Kriminelle sich so einer Technologie bedienen werden, um ihre Straftaten zu begehen."

Christian Rückert, Strafrechtler und Cybercrime-Experte Uni Erlangen-Nürnberg

Um die Kopie unserer Stimme zu perfektionieren, müssen das neuronale Netzwerk und der Algorithmus, die hinter der Sprachsoftware stecken, weiterentwickelt werden. Bisher klingt die computergenerierte Stimme noch etwas blechern und Dinge, die unsere Stimme menschlich klingen lassen, fehlen noch. Wenn wir zwischen Worten oder Sätzen Luft holen, klingt das natürlicher. Auch beim Imitieren des Sprechrhythmus zeigt das Programm, das es bisher nur in einer Beta-Version gibt, noch Schwächen.

"Wenn man beispielsweise eine Audioaufnahme aus einer Telefonüberwachung hat, muss man darüber sprechen, ob man nicht auch einen Sachverständigen zur Bewertung der Echtheit dieser Aufnahme heranzieht."

Christian Rückert, Strafrechtler und Cybercrime-Experte Uni Erlangen-Nürnberg

Dieser Embed kann leider nur direkt auf der Webseite von Deutschlandfunk Nova angezeigt werden.

Die Entwickler von Lyrebird sagen, dass sie die Software entwickeln, damit Computerstimmen menschlicher klingen können. Für ein Programm wie dieses gibt es aber noch viele andere Einsatzmöglichkeiten

Möglicher Einsatz von Sprachcomputern:

bei Hörspiel-Produktionen oder für den Hörfunk
in Verbindung mit Videomaterial auch für das Fernsehen
Interaktion zwischen Menschen und Computer verbessern, weil sie angenehmer klingen
Navis in Autos können mit einer beliebigen Stimme ausgestattet werden
Texte mit einer beliebigen Stimme vorlesen lassen
Hilfsmittel für Leute, die selbst nicht sprechen können

Missbrauch potenziell zu erwarten

Je weiter die Software verbessert wird, desto höher ist das Potenzial zum Missbrauch. Mithilfe des Programms könnte man, wenn es perfektioniert wird, beispielsweise Politikern Worte in den Mund legen, die sie so nie gesagt haben. Audiomaterial, das auf diese Weise produziert wird, könnte bei einer Gerichtsverhandlung als Beweismittel angeführt werden. In Zukunft bräuchte man dann wahrscheinlich einen Audio-Experten, um herauszufinden, ob die Aufnahme echt oder ein Fake ist.

Möglicher Einsatz von Sprachcomputern:

Missbrauch potenziell zu erwarten

Mehr zum Thema: