没入を壊さない AI キャラクターの声の選び方

完璧なキャラクターカードを書けても、初めて声を出した瞬間に場面を失うことがある。テキストと違って TTS は不寛容です。少し陽気すぎる「会いたかった」は、その台詞を真剣に受け取れなくする。音程が半音ずれれば、キャラクターは設定より 20 歳若く聞こえる。

Reverie はキャラクターの音響を細かく制御できます。これは上手く使うためのガイド——どのエンジン、どの声、どのつまみを実際に回すか。

二つのエンジン：Edge（無料）と MiniMax（有料）

Reverie には二つの TTS プロバイダがあります：

Microsoft Edge TTS（無料、デフォルト）。 主戦力。17 以上の言語、言語ごとに複数の声、性別別デフォルト、生成が速い。難点：安定した朗読者であって、感情を演じることはしない。多くの場面で十分、高感情の場面では力不足。

MiniMax（有料）。 忠実度が高く、言語ごとに複数のボイス ID、そしていちばん大事な機能：感情サポート。合成が感情の色合い——優しさ、怒り、ためらい——を運べる。Edge にはできない。1 回あたりのコストは上がる。

正しい心の整理は「無料 vs 有料」ではない。日常の台詞には Edge、覚えていてほしい瞬間には MiniMax。

長編アークでキャラクターが大半の時間軽口を叩いているなら Edge で十分。キャラクターがずっと抑えていたあの一言をついに言う瞬間に切り替える。これは「重要な返信に高級モデルを使う」音響版——大事な台詞に安い保険を買う。

声の解決順序

Reverie はこの優先度でキャラクターの声を決めます：

ユーザー設定（このキャラクターに対するあなたの上書き）が設定済みなら、それ。
キャラクターのデフォルト——クリエイターが選んだもの。
ロケール＋性別フォールバック——言語と性別に対する Edge のデフォルト声。

実用的な意味：

キャラクターが「変な感じ」なら、あなたの上書きがクリエイターの選択を上書く。カードの更新を待たなくていい。
何も設定しなければ聞こえているのはロケールフォールバック。ほぼ確実に最良ではない、無難なだけ。
フォールバックは「声がない状態」を起こさないための床。目標ではない。

キャラクターに合う声を選ぶ

最もよくある誤りは人口統計マッチ（30 歳女性なら 30 歳女声を選ぶ）。それは平凡な声を生む。キャラクターマッチこそ記憶に残る声を生む。

30 歳の戦場医療従事者は 30 歳のヨガインストラクターと違って聞こえます。同じ年齢、同じ性別、完全に違う声。聞くべきものは：

デフォルトレジスター。 この声の中立な調子は温かいか冷たいか、明るいか沈むか？キャラクターの休息時の状態に合わせる、劇的状態ではなく。
歩調。 デフォルト速度でも速く読む声、ゆっくりな声。落ち着いたキャラクターに息切れする声を当てたら、いくら「客観的に良い」声でも合わない。
暗示される年齢。 声には「聞こえ年齢」があり、設定年齢と一致しないことがある。19 歳のキャラクターに 35 歳に聞こえる声は不気味。音高を少し触る、または別の声に変える。

テスト：候補の声で退屈な台詞を 15 秒再生（「うん。行く。8 時ごろ」）。退屈な台詞が変なら、劇的な台詞は救えない。

触る価値のあるつまみ

Reverie が露出しているパラメータは少ない。多くの人は触らないか、触りすぎる。各つまみの本当の用途：

速度（Speed）

デフォルト 1.0x。たいていの声は小さな調整で改善、大きな調整は要らない。

0.9-0.95x 沈思型、年長、ためらうキャラクター。
1.0-1.05x 大半のキャラクター。
1.1-1.15x 神経質、早口、コミックリリーフのキャラクター。
0.85x 未満または 1.2x 超は危険信号——声と格闘している、別を選ぶべき。

音高（Pitch）

控えめに使う。数パーセントの微調整なら年上／年下に説得力ある変化を与えられる。大きく動かすと「加工されたような」人工感が強く、TTS の品質が良くても出る。音高を強く押したくなったら、別の声を選ぶ。

感情（Emotion、MiniMax のみ）

最も過小評価されている機能。感情タグで合成に音色の色が乗る——「会いたかった」を温かく言うのと空虚に言うのの差。MiniMax を使っていて感情を触っていないなら、エンジンの主な利点を使っていない。

使う場面：感情のビート、テキストとトーンを不一致にしたい場面、人間の声優にニュアンスを期待する瞬間。

使わない場面：全部のセリフ。全句に感情を載せるとメロドラマになる。デフォルトは中立にして、感情が定常でないからこそ効く。

声と言語

Reverie は 17 言語の声をサポート、Edge は性別別デフォルトを提供。実用的なメモ：

「言語」ではなく「具体的な地域」。 「スペイン語」は一つのアクセントではない。アルゼンチン人キャラクターにカスティーリャ・アクセントを当てたら、その違いが分かる人には一発で出る。地域は丁寧に。
言語横断キャラクター。 対話中にキャラクターが言語を切り替えると、声はレンダリングされたテキストの言語に従ってエンジン／具体的な声を切り替える。多くは問題なく動く；特定の声に対応する別言語の等価がない場合、横断時に違和感が強い。
母語が英語でないキャラクター。 標準的なアメリカ英語の声を当てると、たいてい没入を壊す。Edge には言語によってアクセント付き英語の声があり、デフォルトのアメリカ声より合うことが多い。

声でよくある失敗

「最良の」声を選ぶ、「正しい」声ではなく。 韻律が最も自然な声でも、キャラクターが 50 歳なのに 25 歳に聞こえるなら正しい声ではない。
速度を品質のつまみと扱う。 速度は性格のつまみ。遅い＝「より良い」ではない、別のキャラクター。
全句に感情を載せる。 上記参照。抑制は「センスがある」と読まれ、定常の感情は「学芸会」と読まれる。
退屈な台詞テストをスキップする。 声は「うん」「了解」「何時？」を大半の時間扱う。これが変なら、見せ場の台詞も変。
上書き可能なのを忘れる。 クリエイターが選択をした。あなたは別の選択をしていい。上書きはタップ一つ先。

Reverie の他機能との組み合わせ

キャラクター執筆 - カードの「話し方ルール」が直接 TTS の選択に翻訳される。「真剣すぎるとき文を切る」は自然な間が変化する声を示唆、安定朗読者ではない。
ペース - 声＋落とした速度は遅い場面の重さを増幅、声＋デフォルト速度は同じ場面を気づかないうちに速める。
重要場面で MiniMax - 見せ場の返信で高級モデルを選ぶのと同じ論理。有料エンジンを刃に使い、軽口に使わない。

まとめ

良い声は気づかなくなる声。台詞を運んでから、退く。

人口統計ではなくキャラクターで選ぶ。退屈な台詞でテストする。速度と感情は軽く触る。記憶に残る場面ではエンジンをアップグレード。

声はキャラクターと別物ではない。聞いている人にとっては、声がキャラクターです。