#AI 声音#TTS#角色声音#语音设置#Reverie 功能

选一个不让你出戏的 AI 角色声音

Reverie Team
Reverie Team

你可以写一张完美的角色卡,然后在角色第一次开口的那一秒钟全盘崩掉——TTS 比文字残忍,它对错误零容忍。一句"我想你"如果语气比该有的开朗一点点,这句话就再也严肃不起来了。音调高半度,角色一下子比设定年轻 20 岁。

Reverie 在声音上给了你很多控制权。下面讲怎么用好它——选哪个引擎、选哪个声音、动哪些旋钮。

两个引擎:Edge(免费)和 MiniMax(付费)

Reverie 自带两个 TTS 提供商:

Microsoft Edge TTS(免费,默认)。 主力。17+ 种语言、每种语言多个声音、按性别提供默认值、生成快。代价:它是一个"稳定播报员"。它能把台词念清楚,但不会。绝大多数场景够用;高情绪场景就吃力。

MiniMax(付费)。 保真度更高、每种语言有多个 voice ID、最重要的一个功能:情感支持。合成可以带情感色彩——温柔、愤怒、犹豫——Edge 做不到。每次生成更贵。

正确的心智模型不是"免费 vs 付费"。是:日常台词用 Edge,你希望被记住的瞬间用 MiniMax

如果你跑一段长剧情、角色大部分时间在斗嘴,Edge 撑得住。一旦到了角色终于说出那句憋了很久的话——切到 MiniMax。这是音频版本的"重头戏升级到更贵的模型"——给值得的台词买便宜的保险。

声音是怎么被选出来的

Reverie 按这个优先级给角色挑声音:

  1. 你的偏好(如果你对这个角色专门设过覆盖)。
  2. 角色默认——创作者选的那个。
  3. 按语言 + 性别兜底——根据角色所用语言和性别,挑对应的 Edge 默认声音。

实际意义:

  • 如果一个角色"听起来不对",你设的覆盖会盖掉创作者的选择。你不用等创作者更新角色卡。
  • 如果你什么都没设,你听到的就是"语言+性别"那一档兜底的声音。它几乎肯定不是这个角色最合适的声音,只是最不会出错的。
  • 兜底机制存在是为了保证角色永远不会没有声音。它是下限,不是目标。

选一个适合角色的声音

最常见的错误是按人口学匹配来选(角色是 30 岁女性,选一个 30 岁女声)。人口学匹配只能给你一个普通的声音。角色匹配才能给你一个让人记住的声音。

30 岁的战地医生和 30 岁的瑜伽老师听起来完全不一样。同年龄、同性别,完全不同的声音。要听的是:

  • 默认语气。 这个声音的中性语调是暖的还是冷的?亮的还是哑的?把它对到角色的默认状态,不是戏剧性状态。
  • 节奏。 有的声音即便在默认语速下读得也很快。有的天生慢。给一个沉稳的角色配一个气喘吁吁的声音,无论这个声音"客观上"多好都不合适。
  • 隐含年龄。 声音有它的"听感年龄",可能和设定年龄不一致。一个 19 岁的角色配一个听起来 35 岁的声音会让人毛骨悚然。微调音高,或者换一个声音。

测试方法:用你考虑的声音播放一段 15 秒的无聊台词("嗯。我到。八点左右。")。无聊台词如果听起来不对,戏剧性台词救不回来。

真正值得动的旋钮

Reverie 暴露的参数不多。大部分人要么完全不动,要么调过头。下面是每个旋钮的真正用途。

语速(Speed)

默认 1.0x。大多数声音受益于小幅微调,很少需要大幅改动。

  • 0.9-0.95x 给沉思型角色、年长角色、会犹豫的角色。
  • 1.0-1.05x 给大多数角色。
  • 1.1-1.15x 给紧张型角色、说话快的角色、喜剧调节角色。
  • 低于 0.85x 或高于 1.2x 是危险信号——你在和这个声音搏斗,应该换一个。

音高(Pitch)

省着用。小幅度调(百分之几)能让声音听起来老一点或年轻一点,可信度高。大幅度调会让声音听起来"被处理过"——人工感很强,即使底层语音质量很好。如果你忍不住要把音高往死里推,换个声音。

情感(Emotion,仅 MiniMax)

被低估得最严重的功能。情感标签让合成带语气色彩——同一句"我想你",温柔地说和空洞地说的区别。如果你用 MiniMax 但没碰情感参数,相当于付了钱却没用它的主要优势。

用在:情感节拍、文字和语气需要不一致的场景、你希望真人配音演员能带出来的瞬间。

不要用在:每一句。每句话都加情感会变成肥皂剧。默认状态应该是中性的,情感才打得动人——因为它不是常态。

声音和语言

Reverie 在 17 种语言里都有声音,Edge 默认按性别提供。几个实际注意点:

  • 是"具体地区",不只是"语种"。 "西班牙语"不是一种口音。如果你角色是阿根廷人但声音是卡斯蒂利亚口音,懂这个差别的听众一耳朵就出戏。地区要选清楚。
  • 跨语言角色。 如果角色在对话中切换语言,声音会按照渲染文本的语言切引擎/具体声音。大多数情况下这能正常工作;但某些角色的特定声音在另一种语言里没有等价物,跨语言听起来会很突兀。
  • 母语非英语的角色。 如果一个角色母语不是英语,给他配一个标准的美式英语声音通常会出戏。Edge 在某些语言上有带口音的英语声音,那些通常比默认美式声音更合适。

常见的声音错误

  • 选"最好"的声音而不是"对"的声音。 韵律最自然的声音如果听起来 25 岁、而你的角色是 50 岁,那不是对的声音。
  • 把语速当质量旋钮。 语速是性格旋钮。慢不是"更好",慢是"另一个角色"。
  • 每一句都加情感。 见上。克制读作"有水平",恒定情感读作"中学话剧"。
  • 跳过无聊台词测试。 一个声音大部分时间在念"好""嗯""几点?"。这些念不对,重头戏更念不对。
  • 忘了你能覆盖。 创作者做了选择,你被允许做另一个选择。覆盖就在一次点击之外。

和 Reverie 其它功能怎么配

  • 角色写作 - 角色卡里的"说话规则"直接翻译成声音选择。"越说越认真的时候会突然把句子掐断"暗示一个带自然停顿变化的声音,不是一个稳定播报员。
  • 节奏 - 声音 + 调慢的语速会放大慢场景的力度;声音 + 默认语速会让同样的场景悄悄变快,你都察觉不到。
  • 关键场景用 MiniMax - 和"重头戏升级到更贵模型"一个逻辑。把付费引擎用在刀刃上,别花在斗嘴上。

总结

好声音是你停止注意到的声音。它把台词送到位,然后让开。

按角色选,不按人口学选。在无聊台词上测试。语速和情感都要轻调。值得记住的场景升级引擎。

声音不是角色之外的东西。对所有"听"这个角色的人来说,声音就是角色。

准备体验动态AI对话了吗?

加入成千上万的用户,一起探索无限个性和引人入胜的互动体验。