选一个不让你出戏的 AI 角色声音

你可以写一张完美的角色卡，然后在角色第一次开口的那一秒钟全盘崩掉——TTS 比文字残忍，它对错误零容忍。一句"我想你"如果语气比该有的开朗一点点，这句话就再也严肃不起来了。音调高半度，角色一下子比设定年轻 20 岁。

Reverie 在声音上给了你很多控制权。下面讲怎么用好它——选哪个引擎、选哪个声音、动哪些旋钮。

两个引擎：Edge（免费）和 MiniMax（付费）

Reverie 自带两个 TTS 提供商：

Microsoft Edge TTS（免费，默认）。 主力。17+ 种语言、每种语言多个声音、按性别提供默认值、生成快。代价：它是一个"稳定播报员"。它能把台词念清楚，但不会演。绝大多数场景够用；高情绪场景就吃力。

MiniMax（付费）。 保真度更高、每种语言有多个 voice ID、最重要的一个功能：情感支持。合成可以带情感色彩——温柔、愤怒、犹豫——Edge 做不到。每次生成更贵。

正确的心智模型不是"免费 vs 付费"。是：日常台词用 Edge，你希望被记住的瞬间用 MiniMax。

如果你跑一段长剧情、角色大部分时间在斗嘴，Edge 撑得住。一旦到了角色终于说出那句憋了很久的话——切到 MiniMax。这是音频版本的"重头戏升级到更贵的模型"——给值得的台词买便宜的保险。

声音是怎么被选出来的

Reverie 按这个优先级给角色挑声音：

你的偏好（如果你对这个角色专门设过覆盖）。
角色默认——创作者选的那个。
按语言 + 性别兜底——根据角色所用语言和性别，挑对应的 Edge 默认声音。

实际意义：

如果一个角色"听起来不对"，你设的覆盖会盖掉创作者的选择。你不用等创作者更新角色卡。
如果你什么都没设，你听到的就是"语言+性别"那一档兜底的声音。它几乎肯定不是这个角色最合适的声音，只是最不会出错的。
兜底机制存在是为了保证角色永远不会没有声音。它是下限，不是目标。

选一个适合角色的声音

最常见的错误是按人口学匹配来选（角色是 30 岁女性，选一个 30 岁女声）。人口学匹配只能给你一个普通的声音。角色匹配才能给你一个让人记住的声音。

30 岁的战地医生和 30 岁的瑜伽老师听起来完全不一样。同年龄、同性别，完全不同的声音。要听的是：

默认语气。 这个声音的中性语调是暖的还是冷的？亮的还是哑的？把它对到角色的默认状态，不是戏剧性状态。
节奏。 有的声音即便在默认语速下读得也很快。有的天生慢。给一个沉稳的角色配一个气喘吁吁的声音，无论这个声音"客观上"多好都不合适。
隐含年龄。 声音有它的"听感年龄"，可能和设定年龄不一致。一个 19 岁的角色配一个听起来 35 岁的声音会让人毛骨悚然。微调音高，或者换一个声音。

测试方法：用你考虑的声音播放一段 15 秒的无聊台词（"嗯。我到。八点左右。"）。无聊台词如果听起来不对，戏剧性台词救不回来。

真正值得动的旋钮

Reverie 暴露的参数不多。大部分人要么完全不动，要么调过头。下面是每个旋钮的真正用途。

语速（Speed）

默认 1.0x。大多数声音受益于小幅微调，很少需要大幅改动。

0.9-0.95x 给沉思型角色、年长角色、会犹豫的角色。
1.0-1.05x 给大多数角色。
1.1-1.15x 给紧张型角色、说话快的角色、喜剧调节角色。
低于 0.85x 或高于 1.2x 是危险信号——你在和这个声音搏斗，应该换一个。

音高（Pitch）

省着用。小幅度调（百分之几）能让声音听起来老一点或年轻一点，可信度高。大幅度调会让声音听起来"被处理过"——人工感很强，即使底层语音质量很好。如果你忍不住要把音高往死里推，换个声音。

情感（Emotion，仅 MiniMax）

被低估得最严重的功能。情感标签让合成带语气色彩——同一句"我想你"，温柔地说和空洞地说的区别。如果你用 MiniMax 但没碰情感参数，相当于付了钱却没用它的主要优势。

用在：情感节拍、文字和语气需要不一致的场景、你希望真人配音演员能带出来的瞬间。

不要用在：每一句。每句话都加情感会变成肥皂剧。默认状态应该是中性的，情感才打得动人——因为它不是常态。

声音和语言

Reverie 在 17 种语言里都有声音，Edge 默认按性别提供。几个实际注意点：

是"具体地区"，不只是"语种"。 "西班牙语"不是一种口音。如果你角色是阿根廷人但声音是卡斯蒂利亚口音，懂这个差别的听众一耳朵就出戏。地区要选清楚。
跨语言角色。 如果角色在对话中切换语言，声音会按照渲染文本的语言切引擎/具体声音。大多数情况下这能正常工作；但某些角色的特定声音在另一种语言里没有等价物，跨语言听起来会很突兀。
母语非英语的角色。 如果一个角色母语不是英语，给他配一个标准的美式英语声音通常会出戏。Edge 在某些语言上有带口音的英语声音，那些通常比默认美式声音更合适。

常见的声音错误

选"最好"的声音而不是"对"的声音。 韵律最自然的声音如果听起来 25 岁、而你的角色是 50 岁，那不是对的声音。
把语速当质量旋钮。 语速是性格旋钮。慢不是"更好"，慢是"另一个角色"。
每一句都加情感。 见上。克制读作"有水平"，恒定情感读作"中学话剧"。
跳过无聊台词测试。 一个声音大部分时间在念"好""嗯""几点？"。这些念不对，重头戏更念不对。
忘了你能覆盖。 创作者做了选择，你被允许做另一个选择。覆盖就在一次点击之外。

和 Reverie 其它功能怎么配

角色写作 - 角色卡里的"说话规则"直接翻译成声音选择。"越说越认真的时候会突然把句子掐断"暗示一个带自然停顿变化的声音，不是一个稳定播报员。
节奏 - 声音 + 调慢的语速会放大慢场景的力度；声音 + 默认语速会让同样的场景悄悄变快，你都察觉不到。
关键场景用 MiniMax - 和"重头戏升级到更贵模型"一个逻辑。把付费引擎用在刀刃上，别花在斗嘴上。

总结

好声音是你停止注意到的声音。它把台词送到位，然后让开。

按角色选，不按人口学选。在无聊台词上测试。语速和情感都要轻调。值得记住的场景升级引擎。

声音不是角色之外的东西。对所有"听"这个角色的人来说，声音就是角色。