#voce IA#TTS#voce personaggio#impostazioni voce#funzioni Reverie

Scegliere una voce IA che non ti tira fuori dalla scena

Reverie Team
Reverie Team

Puoi scrivere una card perfetta e perdere la scena nel secondo in cui il personaggio parla. Il TTS non perdona ciò che il testo perdona. Un "mi sei mancato" appena troppo allegro rende impossibile prendere sul serio la battuta. Mezzo tono di scarto e il personaggio suona vent'anni più giovane.

Reverie dà molto controllo su come suona un personaggio. Questa è una guida per usarlo bene: quale motore, quale voce, quali manopole girare davvero.

I due motori: Edge (gratis) e MiniMax (premium)

Reverie offre due provider TTS:

Microsoft Edge TTS (gratis, default). Cavallo da tiro. Oltre 17 lingue, più voci per lingua, default per genere, generazione rapida. Limite: lettore stabile. Pronuncia chiaro, ma non recita. Ottimo per la maggior parte; scarso per scene molto cariche.

MiniMax (premium). Più fedeltà, più voice ID per lingua, e ciò che conta: supporto delle emozioni. La sintesi porta un registro emotivo — tenerezza, rabbia, esitazione — che Edge non riesce. Più costoso a generazione.

Modello mentale corretto: non "gratis vs. a pagamento". È Edge per la quotidianità, MiniMax per i momenti che vuoi ricordare.

In un arco lungo in cui il personaggio fa per lo più battute — Edge regge. Nel momento in cui dice finalmente ciò che teneva dentro — passa. È l'equivalente audio di "modello premium su una risposta chiave": assicurazione economica per le battute che contano.

Come si risolve la voce

Reverie sceglie in quest'ordine:

  1. Preferenza utente (il tuo override per questo personaggio), se impostato.
  2. Default del personaggio scelto dal creatore.
  3. Fallback locale + genere — voce Edge di default per quella combinazione.

In pratica:

  • Se il personaggio "suona strano", il tuo override sovrascrive il creatore. Non aspetti aggiornamenti della card.
  • Senza impostazioni, senti il fallback. Quasi mai la voce migliore, solo quella più sicura.
  • Il fallback c'è perché nessun personaggio resti muto. È un pavimento, non un obiettivo.

Scegliere una voce che vesta il personaggio

Errore più diffuso: scegliere per corrispondenza demografica (donna di 30 → voce di donna di 30). Voce generica. Corrispondenza di carattere dà voci memorabili.

Una medica di guerra di 30 non suona come un'insegnante di yoga di 30. Stessa età, stesso genere, voci totalmente diverse. Cosa ascoltare:

  • Registro di default. Il tono neutro è caldo o freddo, luminoso o sordo? Allinea sullo stato di riposo del personaggio, non quello drammatico.
  • Andatura. Alcune voci leggono veloce anche a velocità default. Altre vanno lente. Voce ansante su personaggio stoico — non va, per quanto "oggettivamente buona" sia.
  • Età implicita. Le voci hanno un'"età percepita" che può non coincidere con quella dichiarata. Personaggio di 19 con voce che suona 35 — disagio. Tocca il tono o cambia voce.

Test: 15 secondi di una battuta banale ("Ok. Arrivo. Verso le otto.") con la voce candidata. Se la banale suona male, la drammatica non si recupera.

Manopole che vale girare

Reverie espone un set piccolo. I più non le toccano o esagerano. A cosa serve ciascuna:

Velocità (Speed)

Default 1.0x. Quasi tutte migliorano con piccoli ritocchi, raramente grandi.

  • 0.9-0.95x personaggi pensosi, anziani, esitanti.
  • 1.0-1.05x la maggior parte.
  • 1.1-1.15x nervosi, parlatori veloci, comic relief.
  • Sotto 0.85x o sopra 1.2x è segnale rosso — stai combattendo la voce, cambia.

Tono (Pitch)

Con parsimonia. Piccolo scarto (pochi punti percentuali) invecchia o ringiovanisce in modo credibile. Grande scarto rende la voce "lavorata" — artificiale, anche con TTS buono. Se vuoi spingere forte il tono, cambia voce.

Emozione (solo MiniMax)

Funzione più sottovalutata. Il tagging emotivo dà alla sintesi un colore di registro — la differenza tra "mi sei mancato" detto caldo e detto vuoto. MiniMax senza emozione = paghi il motore senza usare il suo vantaggio principale.

Usa in: beat emotivi, scene dove testo e tono devono divergere, momenti dove ti aspetteresti la sfumatura di un doppiatore.

Non usare in: ogni battuta. Emozione su tutto = telenovela. Il default va neutro; l'emozione colpisce di più quando non è costante.

Voce e lingua

Reverie supporta voci in 17 lingue, Edge offre default per genere. Note:

  • È la regione, non solo la lingua. "Spagnolo" non è un accento. Personaggio argentino con voce castigliana — chi distingue lo sente subito. Regione con cura.
  • Personaggi multilingue. Se il personaggio passa di lingua, la voce cambia motore/voce specifica in base alla lingua del testo. Di solito funziona; per alcune voci non c'è equivalente in un'altra lingua e il salto si sente.
  • Personaggi con madrelingua non inglese. Una voce di inglese americano standard di solito tira fuori dalla scena. Edge ha voci con accenti per alcune lingue, spesso meglio della default americana.

Errori comuni con la voce

  • Scegliere la "migliore" invece della "giusta". La prosodia più naturale non è la voce giusta se suona 25 mentre il personaggio ha 50.
  • Velocità come pomello di qualità. La velocità è pomello di carattere. Più lenta ≠ migliore; è un altro personaggio.
  • Emozione su ogni battuta. Sobrietà = classe; emozione costante = recita scolastica.
  • Saltare il test della battuta banale. La voce passa la maggior parte del tempo dicendo "ok", "uhm", "che ora?". Se queste suonano male, le grandi pure.
  • Dimenticare di poter sovrascrivere. Il creatore ha scelto. Tu puoi scegliere diversamente. Override a un tocco.

Incastri con il resto di Reverie

  • Scrittura del personaggio — le "regole di voce" della card si traducono direttamente in scelta TTS. "Si interrompe quando si fa troppo sincero" suggerisce voce con variabilità naturale delle pause, non un lettore costante.
  • Ritmo — voce + velocità ridotta amplificano una scena lenta; voce + velocità default possono accelerare la stessa senza che te ne accorga.
  • MiniMax per le scene chiave — stessa logica del modello premium su una risposta chiave. Motore a pagamento per la lama, non per le chiacchiere.

Conclusione

Una buona voce è quella che smetti di notare. Porta la battuta e si fa da parte.

Scegli per personaggio, non per demografia. Testa su battute banali. Velocità ed emozione con tocco leggero. Per scene memorabili, sali di motore.

La voce non è separata dal personaggio. Per chi ascolta, la voce è il personaggio.

Pronto a sperimentare conversazioni dinamiche con l'IA?

Unisciti a migliaia di utenti che già esplorano personalità infinite e interazioni coinvolgenti su Reverie.