KI und Sprechen: Die Vertonung

KI und Sprechen

(Ko-)Kreation mit ElevenLabs: Die Vertonung

Zunächst geht es darum, die richtige Stimme für meine Protagonistin zu wählen. Sie sollte weich und fließend klingen, wie für eine humanoide KI angemessen. Wichtig ist es, sie weder zu jung noch zu alt klingen zu lassen, sondern alterslos.

Das Programm ElevenLabs bietet hier viele Möglichkeiten an, aus denen man auswählen kann. Dabei unterscheiden sich die Stimmen nach Geschlecht, Alter, Nationalität bzw. Akzent, aber auch nach den Eigenschaften, wie ‚sexy‘, ‚deep‘, ‚vibrant‘, ‚confident‘; weitere Merkmale stehen auch noch zur Auswahl. Zusätzlich ist es möglich, sich seine eigene Stimme zu erstellen. Ich entscheide mich aber dafür, mich aus dem Pool der bereits generierten Stimmen zu bedienen und etwas Angemessenes herauszusuchen. Die Stimme sollte etwas Tiefe besitzen, damit es angenehm ist, ihr zuzuhören. Zu hohe oder zu flache Töne wären hierfür eher ungeeignet. Gleichzeitig sollte sie nicht zu aufgeregt oder überschwänglich sprechen, da das dem Thema meiner Geschichte nicht entsprechen würde.

Meine Wahl beschränkt sich zunächst auf drei Stimmen, die alle weiblich, jung und amerikanisch sind. Letztendlich fällt meine Wahl auf Joanne, die eine sehr beruhigende, tiefe und weiche Stimme hat. Zunächst gebe ich meinen Text so ein, wie ich ihn geschrieben hatte, merke aber schon nach ein paar Sekunden, dass es hier mehrerer spezifischer Eingaben bedarf. Denn die Stimme liest den Text recht emotionslos vor, ohne dabei Pausen zu setzen, wo sie angebracht wären, oder die Stimme zu erheben, wenn es emotional oder laut wird. Natürlich hängt es auch vom Autor selbst ab, wann eine Pause oder Betonung als wichtig angesehen wird. Einzig die Fragezeichen scheint die Stimme zu beachten, da sie sich am Ende der Frage hebt.

Meinem Text füge ich also Pausen mit Hilfe von ‚break time‘ und Betonungen mit Anführungszeichen ein. Nach dem Generieren der Audio merke ich allerdings schnell, dass die angegebene Pause zwischen den Sätzen mit 1,5 Sekunden doch zu lange ist. Auffällig ist vor allem auch, dass die Stimme den Einstieg besonders schnell vorliest. Ich denke zunächst, dass dies ein Generierungsfehler ist, kann aber nach erneutem Generieren hier keine Änderung feststellen. Warum die Stimme hier schneller ist, als beim Rest der Geschichte, ist mir unklar, da sich keine Geschwindigkeiten einstellen lassen und ich sogar Pausen eingefügt habe.

Nach dem zweiten Generieren mit Anpassung der Pausenzeiten werden zusätzlich noch Wörter anders ausgesprochen oder betont, obwohl ich an diesen Stellen keine Änderungen vorgenommen habe. Nach dem insgesamt vierten Generieren der Audios schleichen sich noch mehr Fehler ein: Nun werden die Pausen-Eingaben teilweise vorgelesen und Wörter mit eingebaut, die im geschriebenen Text nicht existieren. Da ich für dieses Experiment nur die kostenlose Version nutze, die ein monatliches Zeichenlimit enthält, kann ich keine weiteren Optimierungen und Versuche durchführen. Für eine wirkliche Buchveröffentlichung hätte ich mir natürlich eine kostenpflichtige Version mit mehr Freiheiten gekauft, um das bestmögliche Ergebnis für meine Vertonung zu erhalten.

Unter diesen Umständen und zum jetzigen Stand lässt sich nur feststellen, dass ElevenLabs keine optimale Unterstützung ist, um meine Geschichte als Hörbuch einsprechen zu lassen. Der Autor bzw. Urheber wäre in dem Fall, meiner Meinung nach, eher die KI, da wenig Modellierung in der Prompteingabe möglich ist. In Zukunft sind vielleicht mehr Optionen möglich, sodass die Stimmen mehr bearbeitet und geleitet werden können. Dann wäre auch mehr Input von meiner Seite aus gefragt, wodurch auch mein Anteil an der Kreation größer wäre und wirklich zu einer Ko-Kreation führen würde.

Momentan sehe ich die KI allerdings als alleinigen Creator und würde das Vertonungs-Projekt eher nicht als eine Ko-Kreation einschätzen. Die Emotionen der Geschichte werden mangelhaft bis ausreichend transportiert, was sich wahrscheinlich verbessern würde, wenn mehr Optionen für die Eingabe der Prompts bzw. Modellierungen möglich wären. Ein Mensch hätte beim Vertonen wohl mehr Gefühl vermittelt. Da die Protagonistin meiner Geschichte aber selbst eine KI ist, ist der Outcome in diesem Beispiel wahrscheinlich angemessen. Auch wenn nur recht wenige Prompts zur Eingabe möglich sind, ist die letztere dafür schnell und einfach. Die kostenlose Version von ElevenLabs bietet in diesem Test dennoch wenig Möglichkeiten, und das Programm müsste in Zukunft weiter optimiert werden – was sicherlich auch geplant ist.

>> Weiter zu "Texteingabe in und Sprachausgabe durch ElevenLabs"