몰입을 깨지 않는 AI 캐릭터 목소리 고르기

완벽한 캐릭터 카드를 써도 처음 입을 여는 순간 장면을 잃을 수 있다. TTS는 텍스트와 달리 용서가 없다. 살짝 너무 명랑한 "보고 싶었어"는 그 대사를 진지하게 받아들일 수 없게 만든다. 음높이가 반음만 어긋나도 캐릭터는 설정보다 20살 어리게 들린다.

Reverie는 캐릭터의 음향을 세세하게 제어할 수 있다. 잘 쓰기 위한 가이드—어떤 엔진, 어떤 목소리, 어떤 노브를 실제로 돌릴지.

두 엔진: Edge(무료)와 MiniMax(유료)

Reverie에는 두 TTS 제공자가 있다:

Microsoft Edge TTS (무료, 기본). 주력. 17개 이상 언어, 언어당 여러 목소리, 성별 기본값, 빠른 생성. 단점: 안정적인 낭독자일 뿐 감정을 연기하지 않는다. 대부분 장면엔 충분하지만 고감정 장면엔 부족하다.

MiniMax (유료). 더 높은 충실도, 언어당 여러 보이스 ID, 그리고 정말 중요한 기능: 감정 지원. 합성이 다정함, 분노, 망설임 같은 감정의 결을 운반할 수 있다. Edge는 못 한다. 생성당 비용이 높다.

옳은 멘탈 모델은 "무료 대 유료"가 아니다. 일상 대사엔 Edge, 기억하고 싶은 순간엔 MiniMax.

긴 아크를 돌리는데 캐릭터가 대부분 농담만 하고 있다면 Edge로 충분하다. 캐릭터가 마침내 참아온 말을 하는 순간에 전환한다. 음향판 "중요한 응답에 고급 모델 쓰기"와 같은 논리—중요한 대사에 싼 보험을 든다.

목소리가 어떻게 결정되는가

Reverie는 이 우선순위로 캐릭터의 목소리를 정한다:

사용자 설정(이 캐릭터에 대한 당신의 덮어쓰기)이 있다면 그것.
캐릭터 기본값—크리에이터가 고른 것.
지역 + 성별 폴백—해당 언어/성별의 Edge 기본 목소리.

실용적 의미:

캐릭터가 "이상하게 들린다"면 당신의 덮어쓰기가 크리에이터 선택을 덮는다. 카드 업데이트를 기다릴 필요 없다.
아무것도 설정하지 않으면 들리는 건 지역 폴백. 거의 확실히 최선의 목소리는 아니다, 안전할 뿐.
폴백은 "목소리 없음" 상태를 막기 위한 바닥이다. 목표가 아니다.

캐릭터에 맞는 목소리 고르기

가장 흔한 실수는 인구통계 매치(30세 여성 캐릭터면 30세 여성 목소리). 인구통계 매치는 평범한 목소리를 준다. 캐릭터 매치가 기억에 남는 목소리를 준다.

30세 군의관은 30세 요가 강사처럼 들리지 않는다. 같은 나이, 같은 성별, 완전히 다른 목소리. 들을 것들:

기본 음역. 이 목소리의 중립 톤이 따뜻한가 차가운가, 밝은가 가라앉은가? 캐릭터의 휴식 상태에 맞춰라, 극적 상태가 아니라.
걸음걸이. 어떤 목소리는 기본 속도에서도 빠르게 읽고, 어떤 건 천천히 간다. 차분한 캐릭터에 숨 가쁜 목소리를 입히면 그 목소리가 "객관적으로 좋아도" 맞지 않는다.
암시된 나이. 목소리에는 "들리는 나이"가 있고 설정 나이와 다를 수 있다. 19세 캐릭터에 35세로 들리는 목소리는 섬뜩하다. 음높이를 살짝 만지거나, 다른 목소리를 골라라.

테스트: 후보 목소리로 지루한 대사 15초를 재생("응. 갈게. 8시쯤"). 지루한 대사가 이상하면 극적 대사는 회복할 수 없다.

만질 가치 있는 노브

Reverie가 노출하는 파라미터는 적다. 대부분은 안 만지거나, 너무 만진다. 각 노브의 진짜 용도:

속도(Speed)

기본 1.0x. 대부분의 목소리는 작은 조정으로 좋아지고, 큰 조정은 필요 없다.

0.9-0.95x 사색형, 연장자, 망설이는 캐릭터.
1.0-1.05x 대부분의 캐릭터.
1.1-1.15x 신경질적, 빠른 화자, 코믹 릴리프 캐릭터.
0.85x 미만 또는 1.2x 초과는 위험 신호—목소리와 싸우는 중, 다른 걸 골라라.

음높이(Pitch)

아껴 써라. 작은 조정(몇 퍼센트)으로 목소리를 나이 들거나 어리게 들리게 할 수 있고 설득력 있다. 큰 조정은 목소리를 "가공된 듯이"—인공감이 강하게—만든다, 기반 TTS가 좋아도. 음높이를 강하게 밀고 싶다면 다른 목소리를 골라라.

감정(Emotion, MiniMax 전용)

가장 과소평가된 기능. 감정 태그는 합성에 음색의 색을 입힌다—"보고 싶었어"를 따뜻하게 말하는 것과 공허하게 말하는 것의 차이. MiniMax를 쓰는데 감정을 안 만진다면 엔진의 주된 강점을 안 쓰는 셈이다.

쓸 때: 감정의 비트, 텍스트와 톤이 불일치해야 하는 장면, 인간 성우에게 뉘앙스를 기대할 순간.

안 쓸 때: 모든 줄. 모든 줄에 감정을 얹으면 통속극이 된다. 기본 상태는 중립이어야 한다, 감정이 상수가 아니어야 더 깊이 박힌다.

목소리와 언어

Reverie는 17개 언어 목소리를 지원하고, Edge는 성별 기본값을 제공한다. 실용 메모:

"언어"가 아니라 "구체적 지역". "스페인어"는 한 가지 억양이 아니다. 캐릭터가 아르헨티나 사람인데 카스티야 억양 목소리라면 그 차이를 아는 사람에겐 한 번에 빠진다. 지역을 신중히.
언어 교차 캐릭터. 대화 중에 캐릭터가 언어를 바꾸면 목소리가 렌더링되는 텍스트 언어를 따라 엔진/구체적 목소리를 전환한다. 대부분은 잘 작동하지만, 특정 목소리에 다른 언어의 등가가 없는 경우 교차 시 위화감이 크다.
영어가 모국어가 아닌 캐릭터. 표준 미국 영어 목소리를 입히면 보통 몰입을 깬다. Edge에는 언어에 따라 억양 있는 영어 목소리가 있고, 그게 기본 미국 목소리보다 더 잘 맞을 때가 많다.

목소리의 흔한 실수

"최고" 목소리를 고르는 것, "맞는" 목소리가 아니라. 운율이 가장 자연스러운 목소리도 캐릭터가 50인데 25로 들린다면 맞는 목소리가 아니다.
속도를 품질 노브로 다루기. 속도는 성격 노브다. 느린 게 "더 좋은"이 아니라 "다른 캐릭터"다.
모든 줄에 감정 얹기. 위 참조. 절제는 "감각 있음"으로 읽히고, 상수 감정은 "학예회"로 읽힌다.
지루한 대사 테스트 건너뛰기. 목소리는 "응", "그래", "몇 시?"를 대부분의 시간 다룬다. 이게 이상하면 보여줄 대사도 이상하다.
덮어쓸 수 있다는 걸 잊기. 크리에이터가 선택을 했고, 당신은 다른 선택을 해도 된다. 덮어쓰기는 탭 한 번 거리.

Reverie의 다른 기능과 조합

캐릭터 작성 - 카드의 "말투 규칙"이 곧 TTS 선택으로 번역된다. "진지해질 때 문장을 끊는다"는 안정적 낭독자가 아니라 자연스러운 멈춤이 변하는 목소리를 시사한다.
페이스 - 목소리 + 낮춘 속도는 느린 장면의 무게를 증폭하고, 목소리 + 기본 속도는 같은 장면을 모르게 빠르게 만든다.
중요 장면에 MiniMax - 보여줄 응답에 고급 모델 쓰는 것과 같은 논리. 유료 엔진을 칼날에 쓰고 농담에 쓰지 마라.

결론

좋은 목소리는 더 이상 의식하지 않게 되는 목소리다. 대사를 운반하고 비켜선다.

인구통계가 아니라 캐릭터로 고르기. 지루한 대사로 테스트. 속도와 감정은 가볍게. 기억에 남을 장면에선 엔진 업그레이드.

목소리는 캐릭터와 별개가 아니다. 듣는 사람에게 목소리가 캐릭터다.