Billig produzieren mit künstlicher Intelligenz?

Was können AI-Stimmen heute?

Wer sich an die ersten Stimmen aus dem Navi erinnert, kann modernen AI-Stimmen bescheinigen: Da hat sich was getan. Die Frage bleibt aber: Was taugen die künstlichen Sprecherinnen und Sprecher im professionellen Umfeld, und wo lauern Fallstricke?

In den letzten Jahren hat die Verwendung von AI-Stimmen in verschiedenen Anwendungen immens zugenommen. Von Sprachassistenten und Chatbots bis hin zu Hörbüchern und eLearning: AI-Stimmen, so wollen es die Anbieter uns glauben machen, sind überall einsatzbereit und ihren Pendants aus Fleisch und Blut ebenbürtig. Aber stimmt das, wenn in Superlativen von Qualität und Natürlichkeit gesprochen wird? Wir haben genauer hingehört und – Spoiler-Alert – wir sind noch lange nicht so weit, Audio-Projekte guten Gewissens den Bits und Bytes zu überlassen.

Professionelle Sprecher online casten

Professionelle Sprecher casten – einfach, schnell und kostenlos! Auf bodalgo finden Sie 12.957 Profi-Sprecher mit eigenem Studio. Unser mehrfach prämiertes Online-Casting hilft Ihnen, die perfekte Stimme für Ihre Produktionen zu finden – von Audio-Book über eLearning bis Werbung!

Kostenlos Casting einstellen!

Einer der offensichtlichsten Gründe, warum AI-Stimmen professionelle Sprecherinnen und Sprecher auf lange Sicht nicht ersetzen können, ist die fehlende menschliche Intonation und Emotion. Während AI-Stimmen heutzutage durchaus in der Lage sind, Wörter und Sätze korrekt auszusprechen, fehlt ihnen die Fähigkeit, die richtigen Betonungen und Pausen zu setzen, um dem Gesprochenen Bedeutung und Emotion zu verleihen. Warum? Weil AI den Text, den sie liest, nicht versteht. Aber es ist erst dieses Verständnis, das uns erlaubt, durch Satzmelodie, Betonungen und Dynamik wichtige Bezüge herzustellen. Erst dieses Zusammenspiel erweckt einen gesprochenen Text zum Leben.

Gefaktes Verständnis

Das fehlende Verständnis führt zu monoton und flach klingenden Texten, was zu einem geringeren Engagement und Interesse seitens des Zuhörers führt. Das ist wenig erfreulich bei eLearning und katastrophal bei Werbung. Es ist hier auch keine wirkliche Verbesserung in naher Zukunft zu erwarten. Ja, die Stimmen selbst klingen natürlich. Und mit Machine Learning und viel Training kann ich versuchen, Satzmelodien zu imitieren, die eventuell zum Text passen.

Aber: Was wenn nicht? Was, wenn der Regisseur den letzten Absatz gern mit ein bisschen mehr "roter Teppich" gesprochen hätte oder den letzten Satz bitte mit der Betonung auf ein bestimmtes Wort? Was, wenn die Haltung grundsätzlich zu soft oder zu sachlich ist? Wie vermitteln Sie dem Sprachmodell, dass es mit mehr Druck, Feingefühl, Wärme, Aggression an die Sache gehen soll?

Es. Geht. Nicht. Und das wird auch noch lange Zeit so bleiben.

Echtes Textverständnis braucht Bewusstsein. Da muss AI passen.

Echtes Textverständnis braucht Bewusstsein. Da muss AI passen.

Bewusstsein, Erfahrung, Reflexion

Warum? Weil die Maschine sich ihrer nicht bewusst ist. Bewusstsein ist aber der ausschlaggebende Punkt für Reflexion. Und wenn eine Sprecherin einen Text liest, reflektiert sie diesen nicht nur mit ihrer Stimme, sondern mit ihrer ganzen Erfahrung als Sprecherin, als Mensch, als empfindsames Wesen. Und gibt dem Text einen individuellen Charakter, der durch Regieanweisungen sogar noch feinjustiert werden kann.

Wem gehört die AI-Stimme?

Abgesehen von kreativ-menschlichen Aspekten droht Ungemach von ganz anderer Seite: Wem eigentlich gehören AI-Stimmen? In den letzten Monaten wehrten sich Künstler erfolgreich gegen die ungefragte Verwendung ihrer Werke als Trainingseinheiten für KI-Modelle. Und auch bei den Sprechern regt sich Widerstand. Die Rechtssprechung steht hier noch am Anfang, doch es braucht wenig Phantasie sich auszumalen wie kompliziert sich die Frage nach dem Urheberrecht gestaltet, wenn eine KI mit dem Audiomaterial tausender Sprecher trainiert wurde.

Schon jetzt mehren sich die Hinweise, dass verschiedene Firmen KI-Stimmen anbieten, deren Modelle mit Aufnahmen trainiert wurden, bei denen Verwendungs- und Verwertungsrechte ungeklärt scheinen. Das Risiko tragen möglicherweise auch die Kunden dieser Anbieter.

Fazit

Künstliche Stimmen sind ohne Frage weit gekommen. Bei Anwendungen wie Siri, Alexa & Co. nehmen wir die technische Intonation der digitalen Assistenten auch gerne in Kauf. Ganz anders sieht es aber bei allen Anwendungen aus, die "human touch" erwarten. Hier bleiben professionelle Stimmen auch in Zukunft erste Wahl.

⨳ ⨳ ⨳
AI-Stimmen  künstliche Intelligenz  AI-Sprecher