#เสียง AI#TTS#เสียงตัวละคร#การตั้งเสียง#ฟีเจอร์ Reverie

เลือกเสียง AI ที่ไม่ดึงคุณออกจากฉาก

Reverie Team
Reverie Team

คุณเขียนการ์ดสมบูรณ์แบบได้ และเสียฉากในวินาทีที่ตัวละครพูด TTS ไม่อภัยสิ่งที่ข้อความอภัย "ฉันคิดถึงคุณ" ที่ร่าเริงเกินไปนิดทำให้บรรทัดเป็นไปไม่ได้ที่จะรับจริงจัง ระดับเสียงคลาดเคลื่อนครึ่งคีย์ — ตัวละครฟังดูอายุน้อยลง 20 ปี

Reverie ให้การควบคุมเสียงของตัวละครเยอะ นี่คือคู่มือใช้ให้ดี: เครื่องไหน เสียงไหน ปุ่มไหนที่หมุนจริง ๆ

สองเครื่อง: Edge (ฟรี) และ MiniMax (พรีเมียม)

Reverie มาพร้อมผู้ให้บริการ TTS สองราย:

Microsoft Edge TTS (ฟรี, ค่าตั้งต้น) ม้างาน 17+ ภาษา หลายเสียงต่อภาษา ค่าตั้งต้นตามเพศ สร้างเร็ว ข้อจำกัด: ผู้อ่านที่นิ่ง อ่านชัดแต่ไม่ เล่น ดีเยี่ยมสำหรับส่วนใหญ่ อ่อนสำหรับฉากที่เต็มไปด้วยอารมณ์

MiniMax (พรีเมียม) ความเที่ยงตรงสูงกว่า หลาย voice ID ต่อภาษา และที่สำคัญ: รองรับอารมณ์ การสังเคราะห์มีอารมณ์ — ความอ่อนโยน ความโกรธ ความลังเล — ที่ Edge ทำไม่ได้ แพงต่อการสร้าง

โมเดลความคิดที่ถูก: ไม่ใช่ "ฟรี vs. จ่าย" คือ Edge สำหรับบรรทัดประจำวัน, MiniMax สำหรับช่วงเวลาที่อยากให้จดจำ

อาร์คยาวที่ตัวละครส่วนใหญ่หยอก — Edge รับได้ ในวินาทีที่เขาในที่สุดพูดสิ่งที่เก็บกัก — สลับ เป็นเวอร์ชันเสียงของ "อัปเกรดโมเดลพรีเมียมสำหรับคำตอบสำคัญ" — ประกันราคาถูกสำหรับบรรทัดที่สำคัญ

เสียงถูกตัดสินอย่างไร

Reverie เลือกตามลำดับ:

  1. ค่ากำหนดผู้ใช้ (override สำหรับตัวละครนี้) ถ้าตั้งไว้
  2. ค่าเริ่มต้นตัวละคร ที่ผู้สร้างเลือก
  3. fallback locale + เพศ — เสียง Edge เริ่มต้นสำหรับคู่นั้น

ปฏิบัติ:

  • ถ้าตัวละคร "ฟังดูผิด" override ของคุณทับการเลือกของผู้สร้าง ไม่ต้องรอการอัปเดตการ์ด
  • ถ้าไม่ตั้งอะไร คุณได้ยิน fallback แทบไม่ใช่เสียงที่ดีที่สุด แค่ปลอดภัยที่สุด
  • fallback มีไว้เพื่อตัวละครไม่เคยไม่มีเสียง พื้น ไม่ใช่เป้าหมาย

เลือกเสียงที่เข้ากับตัวละคร

ข้อผิดพลาดที่พบบ่อยที่สุด: เลือกตาม การจับคู่ประชากร (หญิง 30 → เสียงหญิง 30) ได้เสียงทั่วไป การจับคู่ตัวละคร ได้เสียงที่จดจำ

หมอสนามรบ 30 ไม่ฟังเหมือนครูโยคะ 30 อายุเดียวกัน เพศเดียวกัน เสียงต่างกันสิ้นเชิง สิ่งที่ฟัง:

  • register ค่าตั้งต้น น้ำเสียงกลางอุ่นหรือเย็น สว่างหรือทึบ? จับคู่กับ สถานะพัก ของตัวละคร ไม่ใช่ดราม่า
  • จังหวะ บางเสียงอ่านเร็วแม้ความเร็วค่าตั้งต้น บางเสียงช้าธรรมชาติ เสียงหอบบนตัวละครนิ่ง ไม่เข้ากัน ไม่ว่า "วัตถุวิสัยจะดี" แค่ไหน
  • อายุที่บ่งบอก เสียงมี "อายุที่รู้สึก" ที่อาจไม่ตรงกับที่บอก ตัวละคร 19 กับเสียงฟังเหมือน 35 — น่าอึดอัด ปรับระดับเสียงเล็กน้อย หรือเลือกเสียงอื่น

ทดสอบ: 15 วินาทีของ บรรทัดน่าเบื่อ ("โอเค ไป ประมาณแปดโมง") ในเสียงผู้สมัคร ถ้าน่าเบื่อฟังผิด ดราม่าก็ช่วยไม่ได้

ปุ่มที่ควรหมุน

Reverie เปิดเผยพารามิเตอร์ชุดเล็ก คนส่วนใหญ่ไม่แตะหรือปรับเกิน แต่ละอันใช้ทำอะไรจริง ๆ:

ความเร็ว (Speed)

ค่าตั้งต้น 1.0x เสียงส่วนใหญ่ได้ประโยชน์จากการปรับเล็ก แทบไม่ใช้การปรับใหญ่

  • 0.9-0.95x ตัวละครครุ่นคิด สูงอายุ ลังเล
  • 1.0-1.05x ส่วนใหญ่
  • 1.1-1.15x ประหม่า พูดเร็ว comic relief
  • ต่ำกว่า 0.85x หรือสูงกว่า 1.2x เป็นธงแดง — สู้กับเสียง เลือกอื่น

ระดับเสียง (Pitch)

ใช้ประหยัด เปลี่ยนเล็ก (ไม่กี่เปอร์เซ็นต์) ทำให้แก่หรือเด็กน่าเชื่อถือ เปลี่ยนใหญ่ทำให้เสียงฟังดู "ผ่านการประมวลผล" — เทียม แม้ TTS ดี ถ้าอยากดันระดับเสียงแรง — เปลี่ยนเสียง

อารมณ์ (เฉพาะ MiniMax)

ฟีเจอร์ที่ถูกประเมินค่าต่ำสุด การติด tag อารมณ์ให้การสังเคราะห์มี สีของ register — ความต่างระหว่าง "ฉันคิดถึงคุณ" ที่อุ่นและที่ว่างเปล่า ใช้ MiniMax โดยไม่แตะอารมณ์ = จ่ายเครื่องโดยไม่ใช้ข้อได้เปรียบหลัก

ใช้ใน: beat อารมณ์ ฉากที่ข้อความกับน้ำเสียงต้องไม่ตรงกัน ช่วงเวลาที่คุณคาดหวังความนุ่มจากนักพากย์

อย่าใช้ใน: ทุกบรรทัด อารมณ์ทุกที่ = ละครน้ำเน่า ค่าเริ่มต้นควรเป็นกลาง อารมณ์ตีแรงขึ้นเมื่อไม่คงที่

เสียงและภาษา

Reverie รองรับเสียงใน 17 ภาษา Edge ให้ค่าเริ่มต้นตามเพศ บันทึก:

  • เป็น locale ไม่ใช่แค่ภาษา "สเปน" ไม่ใช่หนึ่งสำเนียง ตัวละครอาร์เจนตินากับเสียงคาสตีล — คนที่รู้ฟังออกทันที locale อย่างระมัดระวัง
  • ตัวละครข้ามภาษา ถ้าตัวละครเปลี่ยนภาษาในบทสนทนา เสียงสลับเครื่อง/เสียงตามภาษาข้อความ มักทำงาน สำหรับบางเสียงไม่มีเทียบเท่าในภาษาอื่น การกระโดดเห็นชัด
  • ตัวละครภาษาแม่ไม่ใช่อังกฤษ เสียงอังกฤษอเมริกันมาตรฐานมักดึงออกจากฉาก Edge มีเสียงอังกฤษมีสำเนียงในบางภาษา มักเหมาะกว่าค่าเริ่มต้นอเมริกัน

ข้อผิดพลาดที่พบบ่อยกับเสียง

  • เลือก "ดีที่สุด" แทน "ถูกต้อง" เสียงที่ prosody เป็นธรรมชาติที่สุดไม่ใช่เสียงถูกถ้าฟังเหมือน 25 ในขณะที่ตัวละคร 50
  • ความเร็วเป็นปุ่มคุณภาพ ความเร็วคือปุ่มบุคลิก ช้ากว่า ≠ ดีกว่า เป็นตัวละครคนละคน
  • อารมณ์ทุกบรรทัด ดูข้างต้น ความสำรวมอ่านเป็นชั้น อารมณ์คงที่อ่านเป็นค่ายละคร
  • ข้ามการทดสอบบรรทัดน่าเบื่อ เสียงใช้เวลาส่วนใหญ่พูด "โอเค", "อืม", "กี่โมง?" ถ้านี่ฟังผิด บรรทัดเด่นก็ผิด
  • ลืมว่า override ได้ ผู้สร้างเลือก คุณเลือกต่างได้ override ห่างหนึ่งแตะ

ผสานกับส่วนที่เหลือของ Reverie

  • การเขียนตัวละคร — "กฎเสียง" บนการ์ดแปลตรงเป็นการเลือก TTS "ตัดประโยคเมื่อจริงจังเกิน" บ่งบอกเสียงที่หยุดเปลี่ยนแปลงตามธรรมชาติ ไม่ใช่ผู้อ่านนิ่ง
  • จังหวะ — เสียง + ความเร็วต่ำกว่าขยายฉากช้า เสียง + ความเร็วค่าเริ่มต้นเร่งฉากเดียวกันโดยไม่รู้
  • MiniMax สำหรับฉากสำคัญ — ตรรกะเดียวกับโมเดลพรีเมียมสำหรับคำตอบสำคัญ เครื่องจ่ายเงินสำหรับคม ไม่ใช่หยอก

สรุป

เสียงดีคือเสียงที่คุณหยุดสังเกต พกบรรทัดและถอย

เลือกตามตัวละคร ไม่ใช่ประชากร ทดสอบบรรทัดน่าเบื่อ ความเร็วและอารมณ์ — สัมผัสเบา สำหรับฉากที่จะจดจำ — เพิ่มเครื่อง

เสียงไม่แยกจากตัวละคร สำหรับผู้ฟัง เสียง คือ ตัวละคร

พร้อมที่จะสัมผัสประสบการณ์การสนทนา AI แบบไดนามิกหรือไม่?

ร่วมกับผู้ใช้งานหมื่นคนที่กำลังสำรวจบุคลิกที่ไม่จำกัดและการโต้ตอบที่น่าดึงดูดบน Reverie