อัตราชนะ A/B แบบปิดตา
เมื่อผู้ใช้เปรียบเทียบคำตอบสองชุดโดยไม่รู้ว่าโมเดลไหนเขียนอันไหน เราบันทึกตัวเลือกนั้น อัตราชนะมาจากการประลองแบบปิดตาเหล่านั้น คิดคะแนนด้วยช่วงความเชื่อมั่นแบบ Wilson
โมเดลจากแปดผู้ผลิต แต่ละตัวมีคะแนนคุณภาพจากการทดสอบ A/B แบบปิดตา อัตรากดถูกใจของผู้ใช้ และสถิติความเร็วแบบสด — อยู่ในตัวเลือกโมเดลเลย สลับได้ทุกเมื่อ รวมถึงกลางบทสนทนา
DeepSeek V4 Flash
DeepSeek
GLM 5
Z.AI
Llama 3.1 8B
Meta
จุดยืนของเรา
ทุกแพลตฟอร์มบอกว่า AI ของตัวเองเยี่ยม เราเลือกที่จะโชว์อัตราชนะแล้วปล่อยให้โมเดลพิสูจน์ตัวเองดีกว่า
— ทีม Reverie
โปร่งใสโดยปริยาย
สี่ตัวชี้วัด วัดจากบทสนทนาจริงบน Reverie — ไม่ใช่ benchmark ของผู้ผลิตที่ลอกมาจากข่าวประชาสัมพันธ์
เมื่อผู้ใช้เปรียบเทียบคำตอบสองชุดโดยไม่รู้ว่าโมเดลไหนเขียนอันไหน เราบันทึกตัวเลือกนั้น อัตราชนะมาจากการประลองแบบปิดตาเหล่านั้น คิดคะแนนด้วยช่วงความเชื่อมั่นแบบ Wilson
ทุกการกดถูกใจและไม่ถูกใจบนคำตอบจริงถูกรวมเป็นอัตรากดถูกใจรายโมเดล คุณจึงเห็นว่าแต่ละโมเดลโดนใจนัก roleplay ตัวจริงแค่ไหน
นานแค่ไหนกว่าโมเดลจะเริ่มตอบ — ค่าเฉลี่ย มัธยฐาน และ p95 วัดจากทราฟฟิกจริงบนโครงสร้างพื้นฐานของเราเอง
ความเร็วการสร้างข้อความล้วน ๆ เมื่อคำตอบเริ่มไหล โมเดลที่เร็วทำให้ฉากยาว ๆ เดินต่อไม่สะดุด — และคุณเห็นชัดว่าโมเดลไหนเป็นแบบนั้น
สถิติคุณภาพทุกตัวมาพร้อมระดับความเชื่อมั่น 1–5 ดาวตามขนาดตัวอย่าง คุณจึงรู้ว่าตัวเลขนั้นนิ่งแค่ไหนก่อนจะเชื่อมัน
โมเดลใหม่เริ่มต้นในสถานะ 'evaluating' — เราแสดงโมเดลโดยไม่อ้างคุณภาพใด ๆ จนกว่าการเปรียบเทียบแบบปิดตาจะสะสมมากพอที่จะพูดอะไรได้อย่างซื่อสัตย์
ไลน์อัปปัจจุบัน
อ่านสดจากรีจิสทรีโมเดลของเรา — เมื่อไลน์อัปเปลี่ยน ตารางนี้ก็เปลี่ยนตาม
| โมเดล | บริบท | การคิดวิเคราะห์ | ค่าใช้จ่าย |
|---|---|---|---|
DeepSeek V3.2พื้นฐาน DeepSeek | 164K | — | 0.5× เครดิต |
DeepSeek V4 Flashพื้นฐาน DeepSeek | 164K | เลือกได้ | 0.3× เครดิต |
DeepSeek V4 Proพื้นฐาน DeepSeek | 164K | เลือกได้ | 0.7× เครดิต |
DeepSeek R1พื้นฐาน DeepSeek | 164K | เปิดตลอด | 1× เครดิต |
MiMo V2 Flashพื้นฐาน Xiaomi | 262K | เลือกได้ | 0.3× เครดิต |
MiMo V2.5พื้นฐาน Xiaomi | 262K | เลือกได้ | 0.3× เครดิต |
GLM 4.5 Airพื้นฐาน Z.AI | 131K | เลือกได้ | 0.5× เครดิต |
GLM 4.7พื้นฐาน Z.AI | 200K | เลือกได้ | 1× เครดิต |
GLM 5ขั้นสูง Z.AI | 200K | เลือกได้ | 1.3× เครดิต |
Gemini 3 Flash Previewขั้นสูง | 1M | — | 1.2× เครดิต |
Llama 3.1 8Bพื้นฐาน Meta | 131K | — | ฟรี |
ตัวคูณเครดิตเทียบกับอัตราเครดิตฐาน โมเดลสร้างภาพและวิดีโอมีให้ใช้แยกต่างหากในแชต
สิ่งที่คุณได้
ที่นี่การสลับโมเดลไม่ใช่ easter egg ในเมนูตั้งค่า แต่คือวิธีที่ผลิตภัณฑ์นี้ตั้งใจให้ใช้
เปลี่ยนโมเดลระหว่างข้อความโดยไม่หลุดเส้นเรื่อง เรียกโมเดลที่คมกว่ามาเล่นฉากสำคัญ แล้วถอยกลับสำหรับบทคุยเล่น
ไม่ชอบคำตอบ? สุ่มใหม่ด้วยโมเดลอื่นแล้วเก็บเวอร์ชันที่อ่านดีกว่า ตัวเลือกเหล่านั้นถูกป้อนเข้าสถิติอัตราชนะ
ครีเอเตอร์ตั้งโมเดลที่ต้องการให้แต่ละตัวละครได้ มันจึงพูดด้วยเอนจินที่ถูกเขียนมาเพื่อมัน ตัวเลือกของคุณเองมีสิทธิ์เหนือกว่าเสมอ
โมเดลฟรีที่ใช้งานได้จริงอยู่ในเมนูที่ศูนย์เครดิต พร้อมลิมิตการใช้งานที่เป็นธรรม — เครดิตหมดจึงไม่เคยแปลว่าบทสนทนาหมด
แต่ละโมเดลแสดงตัวคูณเครดิตของตัวเอง — ตั้งแต่โมเดลประหยัด 0.3× ถึงโมเดลแนวหน้า 2× — ค่าใช้จ่ายจึงเป็นทางเลือกของคุณ ไม่ใช่เซอร์ไพรส์ในบิล
โมเดลคิดวิเคราะห์ล้วนสำหรับพล็อตซับซ้อน และแบบไฮบริดที่คิดเฉพาะเมื่อถูกขอ เลือกสมองที่เหมาะกับฉาก
คำถามที่พบบ่อย
แพลตฟอร์มส่วนใหญ่เลือกโมเดลเดียว แปะแบรนด์ แล้วบอกคุณว่ามันวิเศษ Reverie รันหลายโมเดลและเผยแพร่ว่าพวกมันทำผลงานต่อกันจริง ๆ อย่างไร — ในตัวผลิตภัณฑ์ ตรงจุดที่คุณเลือกเลย
คะแนนคุณภาพมาจากผู้ใช้ที่เลือกระหว่างคำตอบนิรนามสองชุด ระหว่างเปรียบเทียบมองไม่เห็นทั้งป้ายชื่อและผู้ผลิต ตัวเลขจึงวัดฝีมือการเขียน ไม่ใช่แบรนด์
นอกเหนือจากคะแนนรวม ตัวเลือกโมเดลแสดงข้อมูลการเจอกันโดยตรง — โมเดลไหนชนะโมเดลไหน และห่างกันแค่ไหน ในการเปรียบเทียบที่ผู้ใช้ทำจริง
คะแนนจากสี่สิบการเปรียบเทียบไม่ใช่คะแนนจากสี่พัน แต่ละตัวชี้วัดมาพร้อมระดับความเชื่อมั่น 1–5 ดาวที่คำนวณจากขนาดตัวอย่าง แสดงคู่กับตัวเลข
เวลาถึงโทเคนแรกและโทเคนต่อวินาทีวัดจากบทสนทนาจริงบนโปรดักชัน — ค่าเฉลี่ย มัธยฐาน และ p95 — ไม่ได้อ้างจากเอกสารสเปกของผู้ผลิต
ฉากต่างกันต้องการสมองต่างกัน รักช้า ๆ เรื่องยาว สภาสงครามเชิงยุทธวิธี และมุกตลกสั้น ๆ ไม่ได้มีโมเดลในอุดมคติตัวเดียวกัน — คุณจึงไม่ควรถูกล็อกไว้กับตัวเดียว
โมเดลแชตจาก DeepSeek, Google, Z.AI, Xiaomi, Meta และอื่น ๆ พร้อมหน้าต่างบริบทตั้งแต่ 131K ถึงหนึ่งล้านโทเคน ทั้งหมดอยู่หลังอินเทอร์เฟซเดียวและยอดเครดิตเดียว
โมเดลถูกตั้งราคาแยกตัว ตั้งแต่ 0.3× ถึง 2× ของอัตราเครดิตฐาน และตัวคูณพิมพ์อยู่บนการ์ดโมเดล โมเดลถูกกว่าสำหรับฉากทั่วไป โมเดลแนวหน้าเมื่อถึงจังหวะสำคัญ
โมเดลคิดวิเคราะห์เฉพาะทางคิดก่อนเขียนสำหรับพล็อตซับซ้อน โมเดลไฮบริดคิดตามคำสั่ง และโมเดลมัลติโหมดอ่านภาพที่คุณอัปโหลดเข้าแชตได้
โมเดลฟรียังใช้ได้ไม่ว่ายอดเครดิตจะเป็นเท่าไร พร้อมลิมิตการใช้งานที่เป็นธรรม — เป็นพื้นรองรับทุกบทสนทนา ไม่ใช่ trial ที่หมดอายุ
เมื่อพร้อม
เปิดตัวเลือกโมเดลในแชตไหนก็ได้ เรียงตามตัวเลข แล้วหาตัวโปรดของคุณ