Choisir une voix IA qui ne te sort pas de la scène

Tu peux écrire une carte parfaite et perdre la scène à la seconde où le personnage parle. Le TTS ne pardonne pas ce que le texte pardonne. Un « tu m'as manqué » légèrement trop joyeux et la réplique devient impossible à prendre au sérieux. Une hauteur d'un demi-ton à côté — le personnage paraît 20 ans plus jeune.

Reverie offre beaucoup de contrôle sur la voix. Voici un guide pour l'utiliser bien : quel moteur, quelle voix, quels boutons tourner vraiment.

Les deux moteurs : Edge (gratuit) et MiniMax (premium)

Reverie embarque deux fournisseurs TTS :

Microsoft Edge TTS (gratuit, par défaut). Bête de somme. Plus de 17 langues, plusieurs voix par langue, valeurs par défaut selon genre, génération rapide. Bémol : lecteur stable. Articule clair mais ne joue pas. Excellent pour la plupart des scènes ; insuffisant pour les très chargées.

MiniMax (premium). Plus de fidélité, plusieurs voice IDs par langue, et ce qui compte : gestion d'émotion. La synthèse porte un registre — tendresse, colère, hésitation — qu'Edge ne fait pas. Plus cher par génération.

Bon modèle mental : pas « gratuit vs payant », mais Edge pour les répliques courantes, MiniMax pour les moments qu'on veut retenir.

Arc long où le personnage taquine la plupart du temps — Edge tient. Le moment où il dit enfin ce qu'il retenait — passe à l'autre. Équivalent audio de « modèle premium sur une réponse clé » : assurance pas chère pour les répliques qui comptent.

Comment la voix est résolue

Reverie choisit dans cet ordre :

Préférence utilisateur (ton override pour ce personnage), si tu en as.
Défaut du personnage que le créateur a choisi.
Repli langue + genre — voix Edge par défaut pour cette combinaison.

En pratique :

Si le personnage « sonne faux », ton override écrase la sélection du créateur. Pas besoin d'attendre une mise à jour de carte.
Sans réglage, tu entends le repli. Presque jamais la meilleure voix, juste la plus sûre.
Le repli existe pour qu'aucun personnage ne soit muet. C'est un plancher, pas un but.

Choisir une voix qui colle au personnage

Erreur la plus fréquente : choisir par correspondance démographique (femme de 30 → voix de femme de 30). Tu obtiens une voix générique. La correspondance de caractère donne une voix mémorable.

Une médecin militaire de 30 ne sonne pas comme une prof de yoga de 30. Même âge, même genre, voix très différentes. Ce qu'on écoute :

Registre par défaut. Ton neutre chaud ou froid, brillant ou sourd ? Aligne sur l'état au repos du personnage, pas le dramatique.
Cadence. Certaines voix lisent vite même à la vitesse par défaut. D'autres prennent leur temps. Une voix essoufflée sur un personnage stoïque, ça ne va pas, peu importe sa qualité « objective ».
Âge implicite. Les voix ont un « âge perçu » qui peut diverger de l'âge déclaré. 19 ans avec voix de 35 — malaise. Ajuste la hauteur ou change de voix.

Test : 15 s d'une réplique banale (« Ok. J'arrive. Vers huit heures. ») dans la voix candidate. Si le banal sonne faux, le dramatique ne se rattrape pas.

Les boutons qui valent

Reverie expose un set restreint. La plupart ne touchent pas, ou trop. À quoi sert chacun vraiment :

Vitesse (Speed)

Défaut 1.0x. La plupart des voix gagnent à un petit ajustement, rarement à un gros.

0.9-0.95x personnages pensifs, plus âgés, hésitants.
1.0-1.05x la plupart.
1.1-1.15x nerveux, bavards, comic relief.
Sous 0.85x ou au-dessus de 1.2x signal rouge — tu te bats avec la voix, change.

Hauteur (Pitch)

Avec parcimonie. Petit décalage (quelques %) vieillit ou rajeunit avec crédibilité. Gros décalage rend la voix « traitée » — artificielle, même avec un bon TTS. Si tu veux pousser fort la hauteur, change de voix.

Émotion (MiniMax uniquement)

Fonction la plus sous-exploitée. Le tagging d'émotion donne à la synthèse une couleur de registre — différence entre « tu m'as manqué » dit chaleureux et dit creux. MiniMax sans émotion = payer le moteur sans utiliser son avantage principal.

À utiliser : beats émotionnels, scènes où texte et ton doivent diverger, moments où tu attendrais une nuance d'un comédien de doublage.

À ne pas utiliser : chaque réplique. Émotion partout = télénovela. Le défaut doit être neutre ; l'émotion frappe plus quand elle n'est pas constante.

Voix et langue

Reverie supporte des voix dans 17 langues, Edge offre des défauts par genre. Notes :

C'est la locale, pas juste la langue. « Espagnol » n'est pas un accent. Personnage argentin avec voix castillane — qui connaît, l'entend immédiatement. Locale, avec soin.
Personnages multilingues. Si le personnage change de langue en cours, la voix change de moteur/voix selon la langue du texte rendu. Souvent ça marche ; pour certaines voix, pas d'équivalent dans l'autre langue, et la transition surprend.
Personnages dont la langue maternelle n'est pas l'anglais. Une voix d'anglais américain standard sort souvent de la scène. Edge a des voix d'anglais accentué dans certaines langues, souvent mieux que la voix US par défaut.

Erreurs courantes avec la voix

Choisir la « meilleure » au lieu de la « bonne ». La prosodie la plus naturelle n'est pas la bonne si elle sonne 25 alors que le personnage a 50.
Vitesse comme bouton de qualité. La vitesse est un bouton de caractère. Plus lent ≠ meilleur ; c'est un autre personnage.
Émotion sur chaque réplique. La sobriété se lit comme classe ; l'émotion constante, comme atelier théâtre.
Sauter le test du banal. Une voix passe la plupart du temps à dire « ok », « hmm », « à quelle heure ? ». Si ça sonne faux, le clou aussi.
Oublier que tu peux overrider. Le créateur a choisi. Tu peux choisir autrement. Override à un tap.

Articulation avec le reste de Reverie

Écriture du personnage — les « règles de voix » de la carte se traduisent direct en choix TTS. « Se coupe quand il devient sincère » suggère une voix avec variabilité naturelle des pauses, pas un lecteur stable.
Rythme — voix + vitesse réduite amplifient une scène lente ; voix + vitesse par défaut peuvent accélérer la même scène sans qu'on s'en aperçoive.
MiniMax pour les scènes clés — même logique que modèle premium sur une réponse clé. Moteur payant pour la lame, pas pour le babillage.

Conclusion

Une bonne voix est celle qu'on cesse de remarquer. Elle porte la réplique et s'efface.

Choisis par personnage, pas par démographie. Teste sur des répliques banales. Touche vitesse et émotion légèrement. Pour les scènes qui restent, monte le moteur.

La voix n'est pas séparée du personnage. Pour qui écoute, la voix est le personnage.