
Cómo elegir una voz de IA que no te saque de la escena

Puedes escribir una tarjeta perfecta y perder la escena el segundo en que el personaje habla. El TTS no perdona lo que el texto sí. Un "te extrañé" con un toque demasiado alegre vuelve imposible tomarse la línea en serio. Un tono medio paso desafinado y el personaje suena 20 años más joven.
Reverie da bastante control sobre cómo suena un personaje. Esta es una guía para usarlo bien: qué motor, qué voz, qué perillas tocar de verdad.
Los dos motores: Edge (gratis) y MiniMax (premium)
Reverie trae dos proveedores de TTS:
Microsoft Edge TTS (gratis, por defecto). Caballo de batalla. Más de 17 idiomas, varias voces por idioma, defaults por género, generación rápida. Pega: es un lector estable. Lee las líneas claras pero no las actúa. Excelente para la mayoría; corto para escenas de alta carga emocional.
MiniMax (premium). Más fidelidad, varios IDs de voz por idioma, y lo que realmente importa: soporte de emoción. La síntesis puede llevar un registro emocional — ternura, ira, vacilación — que Edge no. Más caro por generación.
Mejor modelo mental: no es "gratis vs. pago". Es Edge para líneas cotidianas, MiniMax para los momentos que quieres recordar.
En un arco largo donde el personaje pasa la mayor parte chacoteando, Edge alcanza. En la escena donde por fin dice lo que estaba aguantando, cambia. Es el equivalente sonoro de pagar el modelo premium en una respuesta clave: un seguro barato para las líneas que importan.
Cómo se resuelve la voz
Reverie elige así:
- Preferencia del usuario (tu override para este personaje), si la estableciste.
- Default del personaje elegido por el creador.
- Fallback por idioma + género — la voz por defecto de Edge para ese par.
En la práctica:
- Si el personaje "suena raro", tu override pisa al creador. No esperas que actualicen la tarjeta.
- Si no configuras nada, oyes el fallback. Casi seguro no es la mejor voz; solo es la más segura.
- El fallback existe para que el personaje nunca quede sin voz. Es el piso, no el objetivo.
Elegir una voz que le quede al personaje
Error frecuente: elegir por coincidencia demográfica (30 años mujer → voz de mujer de 30). Eso da una voz genérica. Coincidencia de carácter te da una memorable.
Una médica de combate de 30 no suena como una instructora de yoga de 30. Misma edad, mismo género, voces totalmente distintas. Lo que se escucha:
- Registro por defecto. ¿El tono neutro es cálido o frío, brillante o sordo? Iguálalo al estado de reposo del personaje, no al dramático.
- Cadencia. Algunas voces leen rápido aun en velocidad por defecto. Otras vienen lentas. Una voz jadeante en un personaje estoico no encaja, por más "buena" que sea.
- Edad implícita. Hay voces con una "edad percibida" distinta de la declarada. Un personaje de 19 con voz de 35 incomoda. Afina tono o cambia de voz.
Prueba: 15 segundos de una línea aburrida ("Bueno. Llego. Como a las ocho.") con la voz candidata. Si la línea aburrida suena mal, las dramáticas no las salvas.
Las perillas que vale la pena tocar
Reverie expone un set chico. La mayoría no las toca o las pasa de rosca. Para qué sirve cada una:
Velocidad (Speed)
Default 1.0x. Casi todas mejoran con ajustes pequeños, raramente con grandes.
- 0.9-0.95x para personajes pensativos, mayores, dubitativos.
- 1.0-1.05x la mayoría.
- 1.1-1.15x nerviosos, parlanchines, alivio cómico.
- Por debajo de 0.85x o por encima de 1.2x es señal roja: estás peleando con la voz, busca otra.
Tono (Pitch)
Con cuentagotas. Un giro chico (unos puntos porcentuales) envejece o rejuvenece de forma creíble. Un giro grande hace que la voz suene "procesada" — artificial, aunque el TTS base sea bueno. Si te dan ganas de empujar tono fuerte, cambia de voz.
Emoción (solo MiniMax)
La función más subutilizada. El etiquetado de emoción carga la síntesis con un color de registro — la diferencia entre "te extrañé" dicho con calidez y dicho hueco. Si usas MiniMax sin tocar la emoción, pagas el motor y no usas su ventaja principal.
Úsala en: beats emocionales, escenas donde texto y tono tienen que disentir, momentos donde esperarías que un actor de doblaje aportara matiz.
No la uses en: cada línea. Emoción en todas se lee como telenovela. El default debería ser neutro; la emoción golpea más fuerte cuando no es constante.
Voz e idioma
Reverie soporta voces en 17 idiomas, con defaults por género en Edge. Notas:
- Es localidad, no solo idioma. "Español" no es un acento. Si el personaje es argentino y la voz es castellana, quien lo nota lo nota al toque. Elige bien la región.
- Personajes que cruzan idiomas. Si el personaje cambia de idioma a mitad de conversación, la voz cambia de motor/voz según el idioma del texto. Casi siempre funciona; para algunas voces no hay equivalente en otro idioma y el salto se siente.
- Personajes cuyo idioma nativo no es inglés. Una voz de inglés americano estándar suele sacar. Edge tiene voces de inglés con acentos en algunos idiomas, normalmente mejor que la default americana.
Errores comunes con la voz
- Elegir la "mejor" en vez de la "correcta". La voz más natural prosódicamente no es la correcta si suena de 25 cuando el personaje tiene 50.
- Tratar velocidad como perilla de calidad. Velocidad es perilla de carácter. Más lento ≠ mejor; es otro personaje.
- Cargar emoción en cada línea. Sobriedad se lee como nivel; emoción constante, como teatro escolar.
- Saltarse la prueba de línea aburrida. Una voz pasa la mayoría del tiempo diciendo "bueno", "ajá", "¿a qué hora?". Si esas suenan mal, las grandes también.
- Olvidar que puedes hacer override. El creador eligió; tú puedes elegir distinto. El override está a un toque.
Cómo encaja con el resto de Reverie
- Escritura de personaje — las "reglas de voz" en la tarjeta se traducen directo a la elección de TTS. "Corta su frase cuando se pone sincero" sugiere una voz con variabilidad natural de pausas, no un lector estable.
- Ritmo — voz + velocidad reducida amplifican una escena lenta; voz + velocidad por defecto pueden acelerar la misma escena sin que lo notes.
- MiniMax para escenas clave — misma lógica que el modelo premium en la respuesta clave. Usa el motor pago para filo, no para charla.
Conclusión
Una buena voz es la que dejas de notar. Lleva la línea y se hace a un lado.
Elige por personaje, no por demografía. Prueba con líneas aburridas. Toca velocidad y emoción suave. Sube de motor en escenas que se quedan.
La voz no es algo aparte del personaje. Para quien escucha, la voz es el personaje.
¿Listo para experimentar conversaciones dinámicas con IA?
Únete a miles de usuarios que ya están explorando personalidades infinitas e interacciones atractivas en Reverie.