
完璧なキャラクターカードを書けても、初めて声を出した瞬間に場面を失うことがある。テキストと違って TTS は不寛容です。少し陽気すぎる「会いたかった」は、その台詞を真剣に受け取れなくする。音程が半音ずれれば、キャラクターは設定より 20 歳若く聞こえる。
Reverie はキャラクターの音響を細かく制御できます。これは上手く使うためのガイド——どのエンジン、どの声、どのつまみを実際に回すか。
二つのエンジン:Edge(無料)と MiniMax(有料)
Reverie には二つの TTS プロバイダがあります:
Microsoft Edge TTS(無料、デフォルト)。 主戦力。17 以上の言語、言語ごとに複数の声、性別別デフォルト、生成が速い。難点:安定した朗読者であって、感情を演じることはしない。多くの場面で十分、高感情の場面では力不足。
MiniMax(有料)。 忠実度が高く、言語ごとに複数のボイス ID、そしていちばん大事な機能:感情サポート。合成が感情の色合い——優しさ、怒り、ためらい——を運べる。Edge にはできない。1 回あたりのコストは上がる。
正しい心の整理は「無料 vs 有料」ではない。日常の台詞には Edge、覚えていてほしい瞬間には MiniMax。
長編アークでキャラクターが大半の時間軽口を叩いているなら Edge で十分。キャラクターがずっと抑えていたあの一言をついに言う瞬間に切り替える。これは「重要な返信に高級モデルを使う」音響版——大事な台詞に安い保険を買う。
声の解決順序
Reverie はこの優先度でキャラクターの声を決めます:
- ユーザー設定(このキャラクターに対するあなたの上書き)が設定済みなら、それ。
- キャラクターのデフォルト——クリエイターが選んだもの。
- ロケール+性別フォールバック——言語と性別に対する Edge のデフォルト声。
実用的な意味:
- キャラクターが「変な感じ」なら、あなたの上書きがクリエイターの選択を上書く。カードの更新を待たなくていい。
- 何も設定しなければ聞こえているのはロケールフォールバック。ほぼ確実に最良ではない、無難なだけ。
- フォールバックは「声がない状態」を起こさないための床。目標ではない。
キャラクターに合う声を選ぶ
最もよくある誤りは人口統計マッチ(30 歳女性なら 30 歳女声を選ぶ)。それは平凡な声を生む。キャラクターマッチこそ記憶に残る声を生む。
30 歳の戦場医療従事者は 30 歳のヨガインストラクターと違って聞こえます。同じ年齢、同じ性別、完全に違う声。聞くべきものは:
- デフォルトレジスター。 この声の中立な調子は温かいか冷たいか、明るいか沈むか?キャラクターの休息時の状態に合わせる、劇的状態ではなく。
- 歩調。 デフォルト速度でも速く読む声、ゆっくりな声。落ち着いたキャラクターに息切れする声を当てたら、いくら「客観的に良い」声でも合わない。
- 暗示される年齢。 声には「聞こえ年齢」があり、設定年齢と一致しないことがある。19 歳のキャラクターに 35 歳に聞こえる声は不気味。音高を少し触る、または別の声に変える。
テスト:候補の声で退屈な台詞を 15 秒再生(「うん。行く。8 時ごろ」)。退屈な台詞が変なら、劇的な台詞は救えない。
触る価値のあるつまみ
Reverie が露出しているパラメータは少ない。多くの人は触らないか、触りすぎる。各つまみの本当の用途:
速度(Speed)
デフォルト 1.0x。たいていの声は小さな調整で改善、大きな調整は要らない。
- 0.9-0.95x 沈思型、年長、ためらうキャラクター。
- 1.0-1.05x 大半のキャラクター。
- 1.1-1.15x 神経質、早口、コミックリリーフのキャラクター。
- 0.85x 未満または 1.2x 超は危険信号——声と格闘している、別を選ぶべき。
音高(Pitch)
控えめに使う。数パーセントの微調整なら年上/年下に説得力ある変化を与えられる。大きく動かすと「加工されたような」人工感が強く、TTS の品質が良くても出る。音高を強く押したくなったら、別の声を選ぶ。
感情(Emotion、MiniMax のみ)
最も過小評価されている機能。感情タグで合成に音色の色が乗る——「会いたかった」を温かく言うのと空虚に言うのの差。MiniMax を使っていて感情を触っていないなら、エンジンの主な利点を使っていない。
使う場面:感情のビート、テキストとトーンを不一致にしたい場面、人間の声優にニュアンスを期待する瞬間。
使わない場面:全部のセリフ。全句に感情を載せるとメロドラマになる。デフォルトは中立にして、感情が定常でないからこそ効く。
声と言語
Reverie は 17 言語の声をサポート、Edge は性別別デフォルトを提供。実用的なメモ:
- 「言語」ではなく「具体的な地域」。 「スペイン語」は一つのアクセントではない。アルゼンチン人キャラクターにカスティーリャ・アクセントを当てたら、その違いが分かる人には一発で出る。地域は丁寧に。
- 言語横断キャラクター。 対話中にキャラクターが言語を切り替えると、声はレンダリングされたテキストの言語に従ってエンジン/具体的な声を切り替える。多くは問題なく動く;特定の声に対応する別言語の等価がない場合、横断時に違和感が強い。
- 母語が英語でないキャラクター。 標準的なアメリカ英語の声を当てると、たいてい没入を壊す。Edge には言語によってアクセント付き英語の声があり、デフォルトのアメリカ声より合うことが多い。
声でよくある失敗
- 「最良の」声を選ぶ、「正しい」声ではなく。 韻律が最も自然な声でも、キャラクターが 50 歳なのに 25 歳に聞こえるなら正しい声ではない。
- 速度を品質のつまみと扱う。 速度は性格のつまみ。遅い=「より良い」ではない、別のキャラクター。
- 全句に感情を載せる。 上記参照。抑制は「センスがある」と読まれ、定常の感情は「学芸会」と読まれる。
- 退屈な台詞テストをスキップする。 声は「うん」「了解」「何時?」を大半の時間扱う。これが変なら、見せ場の台詞も変。
- 上書き可能なのを忘れる。 クリエイターが選択をした。あなたは別の選択をしていい。上書きはタップ一つ先。
Reverie の他機能との組み合わせ
- キャラクター執筆 - カードの「話し方ルール」が直接 TTS の選択に翻訳される。「真剣すぎるとき文を切る」は自然な間が変化する声を示唆、安定朗読者ではない。
- ペース - 声+落とした速度は遅い場面の重さを増幅、声+デフォルト速度は同じ場面を気づかないうちに速める。
- 重要場面で MiniMax - 見せ場の返信で高級モデルを選ぶのと同じ論理。有料エンジンを刃に使い、軽口に使わない。
まとめ
良い声は気づかなくなる声。台詞を運んでから、退く。
人口統計ではなくキャラクターで選ぶ。退屈な台詞でテストする。速度と感情は軽く触る。記憶に残る場面ではエンジンをアップグレード。
声はキャラクターと別物ではない。聞いている人にとっては、声がキャラクターです。
