KI und Sprechen
Erkenntnisse aus der Forschung
Vorab muss ich betonen, dass sich zum Thema Text-to-Speech-KI wenig bis keine Literatur finden ließ. Vor allem zum Programm ElevenLabs, mit welchem ich für diese Arbeit die Vertonung meiner Geschichte generieren möchte, kann ich keine grundlegenden Forschungsergebnisse ausfindig machen.
Auf der Webseite von ElevenLabs entdecke ich jedoch einige Tipps für die Texteingabe bzw. Sprachausgabe. So steht es dort geschrieben, dass der Kontext wichtig für die Erzeugung bestimmter Emotionen sei. Würde man beispielsweise einen lustigen Text eingeben, würde man möglicherweise eine fröhliche Audioausgabe erhalten. Ähnlich sei es bei Traurigkeit, Wut und anderen Emotionen. Zum Thema Betonung empfiehlt die Seite, relevante Sätze oder Wörter in Anführungszeichen zu setzen, um sie hervorzuheben. Ferner wird darauf hingewiesen, dass der Sprechstil der Stimme in der Audioausgabe reproduziert wird und daher monotone Stimmen Schwierigkeiten damit haben, eine ausdrucksstarke Audioausgabe zu generieren.[i]
Um Pausen oder Unterbrechungen in den Text mit einzubauen, gäbe es gleich mehrere Möglichkeiten. Auch der Rhythmus des Sprechers könne so verändert werden. Mit der Verwendung der Syntax `<break time="1.5s" />` wird eine exakte und natürliche Pause in der Rede erzeugt, die die KI wirklich versteht und nicht nur reproduziert. Hierbei sollte beachtet werden, dass die Pausenlänge nur in Sekunden angegeben werden sollte und maximal drei Sekunden betragen kann. In manchen Fällen kann es vorkommen, dass die Stimme ein ‚äh‘ oder ‚ah‘ in die Pause miteinfügt, wenn sie darauf trainiert wurde. Andere Alternativen, die scheinbar nicht immer funktionieren würden, seien ein einfacher Bindestrich `-` oder mehrere Bindestriche`-- --` für einen längeren Satz. Das Zeichen `...` könne manchmal ebenfalls eine Pause zwischen Wörtern einfügen, würde aber ‚Zögern‘ oder ‚Nervosität‘ in die Stimme einbauen.[ii] Features, wie die Geschwindigkeit der Stimme, die Erzeugung von Lachen oder auch Übersicht von möglichen Eingaben, seien momentan noch nicht verfügbar und für die Zukunft geplant.[iii]
[i] ElevenLabs: „How to produce emotions”, https://help.elevenlabs.io/hc/en-us/articles/14187482972689-How-to-produce-emotions [Zuletzt aufgerufen am 03.10.2023].
[ii] ElevenLabs: “How Can I add pauses”, https://help.elevenlabs.io/hc/en-us/articles/13416374683665-How-can-I-add-pauses [Zuletzt aufgerufen am 03.10.2023].
[iii] ElevenLabs: „Audio: Guides, tips, emotions & pauses”, https://help.elevenlabs.io/hc/en-us/sections/13415989887889-Audio [Zuletzt aufgerufen am 03.10.2023].
>> Weiter zu "(Ko-)Kreation mit ElevenLabs: Die Vertonung"