#giọng AI#TTS#giọng nhân vật#cài đặt giọng#tính năng Reverie

Chọn giọng AI không kéo bạn ra khỏi cảnh

Reverie Team
Reverie Team

Bạn có thể viết một card hoàn hảo và mất cảnh trong giây nhân vật cất tiếng. TTS không tha thứ những gì văn bản tha thứ. Một "tôi nhớ bạn" hơi quá vui là không thể nghiêm túc nổi. Cao độ lệch nửa cung — nhân vật nghe trẻ hơn 20 tuổi.

Reverie cho nhiều quyền điều khiển âm thanh của nhân vật. Đây là hướng dẫn dùng nó tốt: động cơ nào, giọng nào, núm nào thực sự xoay.

Hai động cơ: Edge (miễn phí) và MiniMax (cao cấp)

Reverie có hai nhà cung cấp TTS:

Microsoft Edge TTS (miễn phí, mặc định). Ngựa thồ. Hơn 17 ngôn ngữ, nhiều giọng mỗi ngôn ngữ, mặc định theo giới tính, sinh tạo nhanh. Hạn chế: một người đọc ổn định. Đọc rõ nhưng không diễn. Tốt cho phần lớn; thiếu cho cảnh cảm xúc mạnh.

MiniMax (cao cấp). Trung thực hơn, nhiều voice ID mỗi ngôn ngữ, và quan trọng nhất: hỗ trợ cảm xúc. Tổng hợp mang sắc thái — dịu dàng, giận, ngập ngừng — điều Edge không làm được. Đắt hơn mỗi lần tạo.

Mô hình suy nghĩ đúng: không phải "miễn phí vs. trả phí". Là Edge cho câu thoại đời thường, MiniMax cho khoảnh khắc muốn nhớ.

Vòng cung dài, nhân vật chủ yếu đùa nhẹ — Edge cõng được. Khoảnh khắc anh ấy cuối cùng nói điều đã giữ lại — đổi. Là phiên bản âm thanh của "nâng cấp mô hình cao cấp cho câu trả lời then chốt" — bảo hiểm rẻ cho những câu thoại đáng.

Cách xác định giọng

Reverie chọn theo thứ tự:

  1. Tùy chỉnh người dùng (override cho nhân vật này) nếu được đặt.
  2. Mặc định của nhân vật do người tạo chọn.
  3. Dự phòng locale + giới tính — giọng Edge mặc định cho cặp đó.

Thực tế:

  • Nếu nhân vật "nghe sai", override của bạn đè lựa chọn của người tạo. Không cần đợi cập nhật card.
  • Không cài gì, bạn nghe bản dự phòng. Gần như chắc chắn không phải giọng tốt nhất, chỉ an toàn nhất.
  • Dự phòng tồn tại để nhân vật không bao giờ "không giọng". Là sàn, không phải mục tiêu.

Chọn giọng hợp nhân vật

Lỗi phổ biến nhất: chọn theo khớp nhân khẩu (nữ 30 → giọng nữ 30). Cho giọng chung chung. Khớp tính cách cho giọng đáng nhớ.

Một nữ quân y 30 không nghe như giáo viên yoga 30. Cùng tuổi, cùng giới, giọng khác hẳn. Cần nghe:

  • Thanh ghi mặc định. Tông trung tính ấm hay lạnh, sáng hay tắt? Khớp với trạng thái nghỉ của nhân vật, không phải kịch tính.
  • Nhịp. Có giọng dù tốc độ mặc định đọc nhanh. Có giọng sinh ra chậm. Giọng hổn hển trên nhân vật điềm tĩnh không hợp, dù "tốt khách quan".
  • Tuổi ngầm. Giọng có "tuổi cảm nhận" có thể khác tuổi khai. Nhân vật 19 với giọng nghe 35 — khó chịu. Tinh chỉnh cao độ hoặc đổi giọng.

Kiểm tra: 15 giây một câu thoại chán ("Ừ. Tới. Tầm tám giờ.") trong giọng ứng viên. Câu chán nghe sai, câu kịch tính không cứu nổi.

Núm đáng xoay

Reverie phơi bày tập tham số nhỏ. Phần đông hoặc không động, hoặc xoay quá. Mỗi cái thực sự dùng làm gì:

Tốc độ (Speed)

Mặc định 1.0x. Phần lớn được lợi với chỉnh nhỏ, hiếm khi lớn.

  • 0.9-0.95x trầm tư, lớn tuổi, do dự.
  • 1.0-1.05x phần lớn.
  • 1.1-1.15x nóng nảy, nói nhanh, comic relief.
  • Dưới 0.85x hoặc trên 1.2x là cờ đỏ — bạn đang đánh nhau với giọng, chọn cái khác.

Cao độ (Pitch)

Tằn tiện. Dịch chuyển nhỏ (vài %) làm già/trẻ hợp lý. Lớn làm giọng "đã xử lý" — nhân tạo, ngay cả TTS tốt. Nếu muốn đẩy mạnh cao độ — đổi giọng.

Cảm xúc (chỉ MiniMax)

Tính năng bị đánh giá thấp nhất. Gắn thẻ cảm xúc đem màu thanh ghi vào tổng hợp — khác biệt giữa "tôi nhớ bạn" ấm và rỗng. Dùng MiniMax mà không chạm cảm xúc = trả tiền động cơ mà không dùng lợi thế chính.

Dùng cho: nhịp cảm xúc, cảnh cần văn bản và giọng lệch nhau, khoảnh khắc bạn mong diễn viên lồng tiếng đem sắc thái.

Đừng dùng: ở mỗi câu. Cảm xúc khắp nơi = phim mê-lô. Mặc định nên trung tính; cảm xúc đánh mạnh hơn khi không hằng định.

Giọng và ngôn ngữ

Reverie hỗ trợ giọng ở 17 ngôn ngữ, Edge mặc định theo giới tính. Lưu ý:

  • Là locale, không chỉ ngôn ngữ. "Tiếng Tây Ban Nha" không phải một giọng. Nhân vật Argentina với giọng Castilla — ai phân biệt được sẽ nghe ngay. Locale cẩn thận.
  • Nhân vật đa ngôn ngữ. Khi nhân vật đổi ngôn ngữ giữa hội thoại, giọng chuyển động cơ/giọng cụ thể theo ngôn ngữ văn bản. Thường hoạt động; với một số giọng không có tương đương ngôn ngữ khác, bước nhảy nghe rõ.
  • Nhân vật không nói tiếng Anh bản ngữ. Giọng tiếng Anh Mỹ tiêu chuẩn thường kéo ra ngoài cảnh. Edge có giọng tiếng Anh có giọng địa phương ở một số ngôn ngữ, thường hợp hơn.

Lỗi phổ biến với giọng

  • Chọn "tốt nhất" thay vì "đúng". Nhịp điệu tự nhiên nhất không phải đúng nếu nghe 25 trong khi nhân vật 50.
  • Tốc độ như núm chất lượng. Tốc độ là núm tính cách. Chậm hơn ≠ tốt hơn; là nhân vật khác.
  • Cảm xúc trên mỗi câu. Kiềm chế đọc như đẳng cấp; cảm xúc hằng đọc như câu lạc bộ kịch.
  • Bỏ thử câu chán. Giọng dành phần lớn thời gian nói "ừ", "ờ", "mấy giờ?". Nếu cái này sai, câu hoành tráng cũng sai.
  • Quên rằng có thể override. Người tạo đã chọn. Bạn có thể chọn khác. Override cách một chạm.

Liên kết với phần còn lại của Reverie

  • Viết nhân vật — "quy tắc giọng" trên card dịch trực tiếp thành chọn TTS. "Cắt câu khi quá thật lòng" gợi giọng có biến thiên ngắt nghỉ tự nhiên, không phải người đọc ổn định.
  • Tiết tấu — giọng + tốc độ giảm khuếch đại cảnh chậm; giọng + tốc độ mặc định có thể tăng tốc cùng cảnh mà bạn không hay.
  • MiniMax cho cảnh then chốt — cùng logic với mô hình cao cấp cho câu trả lời then chốt. Động cơ trả phí cho lưỡi sắc, không cho tán gẫu.

Kết luận

Giọng tốt là giọng bạn ngừng để ý. Mang câu thoại và lùi đi.

Chọn theo nhân vật, không nhân khẩu. Thử trên câu chán. Tốc độ và cảm xúc — chạm nhẹ. Cho cảnh đáng nhớ — nâng động cơ.

Giọng không tách khỏi nhân vật. Với người nghe, giọng chính là nhân vật.

Sẵn sàng trải nghiệm cuộc trò chuyện AI năng động?

Tham gia hàng ngàn người dùng đang khám phá tính cách vô tận và tương tác hấp dẫn trên Reverie.