Wie man eine KI-Stimme wählt, die nicht aus der Szene reißt

Du kannst eine perfekte Charakterkarte schreiben und die Szene in der Sekunde verlieren, in der die Figur spricht. TTS verzeiht nicht, was Text verzeiht. Ein leicht zu fröhliches „Ich hab dich vermisst" macht die Zeile unmöglich ernst zu nehmen. Eine halbe Tonstufe daneben — die Figur klingt 20 Jahre jünger.

Reverie gibt viel Kontrolle darüber, wie eine Figur klingt. Das ist ein Leitfaden, das gut zu nutzen: welche Engine, welche Stimme, welche Knöpfe wirklich drehen.

Die zwei Engines: Edge (kostenlos) und MiniMax (Premium)

Reverie liefert zwei TTS-Anbieter mit:

Microsoft Edge TTS (kostenlos, Standard). Arbeitspferd. Über 17 Sprachen, mehrere Stimmen pro Sprache, Geschlechter-Defaults, schnelle Generierung. Haken: stabiler Vorleser. Liest klar, spielt aber nicht. Bestens für die meisten Szenen; zu schwach für hochemotionale.

MiniMax (Premium). Höhere Treue, mehrere Voice-IDs pro Sprache, und das, was zählt: Emotionsunterstützung. Die Synthese kann ein emotionales Register tragen — Wärme, Wut, Zögern —, was Edge nicht kann. Pro Generierung teurer.

Mentales Modell: nicht „kostenlos vs. zahlend". Sondern Edge für Alltagszeilen, MiniMax für Momente, die haften sollen.

In einem langen Bogen, in dem die Figur meist plänkelt — Edge trägt. In dem Moment, in dem sie endlich sagt, was sie zurückgehalten hat, umschalten. Das ist das Audio-Pendant zu „Premium-Modell für eine Schlüsselantwort" — billige Versicherung für die Zeilen, die zählen.

Wie die Stimme aufgelöst wird

Reverie wählt so:

User-Präferenz (dein Override für diese Figur), falls gesetzt.
Figuren-Standard, den der Creator gewählt hat.
Locale + Geschlechts-Fallback — Edge-Standardstimme für diese Kombi.

Praktische Folgen:

Klingt die Figur „falsch", übersteuert dein Override die Creator-Wahl. Du musst nicht auf Karten-Updates warten.
Ohne Einstellung hörst du den Fallback. Fast sicher nicht die beste Stimme, nur die sicherste.
Der Fallback verhindert „keine Stimme". Boden, nicht Ziel.

Eine Stimme passend zur Figur wählen

Häufigster Fehler: nach demographischer Übereinstimmung wählen (30 Jahre Frau → Frauen-30-Stimme). Ergibt eine generische Stimme. Charakter-Übereinstimmung ergibt eine merkbare.

Eine 30-jährige Sanitäterin klingt nicht wie eine 30-jährige Yogalehrerin. Gleiches Alter, gleiches Geschlecht, ganz andere Stimmen. Worauf hören:

Standardregister. Ist der Neutralton warm oder kühl, hell oder dumpf? Auf den Ruhezustand der Figur abstimmen, nicht auf den dramatischen.
Tempo. Manche Stimmen lesen auch bei Default-Geschwindigkeit schnell. Andere sind langsam. Eine atemlose Stimme auf einer stoischen Figur passt nicht, so „objektiv gut" sie auch ist.
Implizites Alter. Stimmen haben ein „gefühltes Alter", das nicht zum deklarierten passen muss. 19-jährige Figur mit 35-jährig klingender Stimme — unheimlich. Tonhöhe leicht anpassen oder andere Stimme.

Test: 15 Sekunden einer langweiligen Zeile („Ja. Ich komme. So gegen acht.") in der Kandidatenstimme. Klingt die langweilige falsch, retten die dramatischen sie nicht.

Knöpfe, die sich lohnen

Reverie zeigt einen kleinen Parametersatz. Die meisten ignorieren ihn oder übertreiben. Wofür jeder wirklich ist:

Geschwindigkeit (Speed)

Default 1.0x. Die meisten profitieren von kleinen Anpassungen, selten von großen.

0.9–0.95x nachdenklich, älter, zögernd.
1.0–1.05x die meisten.
1.1–1.15x nervös, schnellsprechend, comic relief.
Unter 0.85x oder über 1.2x ist Warnzeichen — du kämpfst mit der Stimme, wähle eine andere.

Tonhöhe (Pitch)

Sparsam. Kleine Verschiebung (wenige Prozent) altert/verjüngt überzeugend. Große macht die Stimme „bearbeitet" — künstlich, auch bei gutem TTS. Wenn du Pitch stark drücken willst — andere Stimme.

Emotion (nur MiniMax)

Am stärksten unternutzt. Emotions-Tagging gibt der Synthese eine Registerfarbe — Unterschied zwischen „Ich hab dich vermisst" warm und hohl. MiniMax zu nutzen, ohne Emotion zu berühren, heißt: Engine zahlen und den Hauptvorteil nicht nutzen.

Einsetzen: emotionale Beats, Szenen, in denen Text und Ton auseinander gehen sollen, Momente, in denen du Nuance von einem Sprecher erwartest.

Nicht einsetzen: in jeder Zeile. Emotion überall liest sich wie Telenovela. Standard sollte neutral sein; Emotion trifft härter, wenn nicht permanent.

Stimme und Sprache

Reverie unterstützt Stimmen in 17 Sprachen, bei Edge mit Geschlechter-Defaults. Notizen:

Locale, nicht nur Sprache. „Spanisch" ist kein Akzent. Argentinische Figur mit kastilischer Stimme — wer das hört, hört es sofort. Locale sorgfältig wählen.
Sprachwechselnde Figuren. Wechselt die Figur die Sprache, wechselt die Stimme Engine/konkrete Stimme nach dem Sprachwert des Textes. Klappt meist; für manche Stimmen gibt es kein Äquivalent in einer anderen Sprache, der Sprung wirkt hart.
Nicht-Englisch-Muttersprache. Eine US-Standard-Englischstimme reißt meist raus. Edge hat in manchen Sprachen Englischstimmen mit Akzent, die oft besser sitzen als die US-Default.

Häufige Fehler mit Stimme

Die „beste" Stimme wählen statt die „richtige". Natürlichste Prosodie ist nicht richtig, wenn sie wie 25 klingt, während die Figur 50 ist.
Geschwindigkeit als Qualitätsregler. Geschwindigkeit ist Charakterregler. Langsamer ≠ besser; eine andere Figur.
Emotion in jede Zeile. Zurückhaltung liest sich als Klasse, konstante Emotion als Schultheater.
Den Langweil-Zeilen-Test überspringen. Stimme spricht die meiste Zeit „okay", „mhm", „wann?". Klingen die schlecht, klingen die großen es auch.
Vergessen, dass du übersteuern kannst. Der Creator hat gewählt. Du darfst anders wählen. Override ist einen Tap entfernt.

Zusammenspiel mit dem Rest von Reverie

Figurenschreiben — die „Stimmregeln" auf der Karte übersetzen direkt in TTS-Wahl. „Schneidet sich ab, wenn er zu ehrlich wird" deutet eine Stimme mit natürlicher Pausenvariabilität an, kein gleichmäßiger Vorleser.
Tempo — Stimme + langsamere Speed verstärken eine langsame Szene; Stimme + Default-Speed können dieselbe Szene unbemerkt beschleunigen.
MiniMax für Schlüsselszenen — gleiche Logik wie Premium-Modell auf der Schlüsselantwort. Premium-Engine fürs Klinge, nicht fürs Geplänkel.

Fazit

Eine gute Stimme ist, was du nicht mehr bemerkst. Trägt die Zeile und tritt zur Seite.

Nach Charakter wählen, nicht nach Demographie. An langweiligen Zeilen testen. Speed und Emotion mit leichter Hand. Bei merkwürdigen Szenen — Engine hochstufen.

Stimme ist nicht getrennt von der Figur. Für die Hörenden ist die Stimme die Figur.