ข้อมูลจริง ไม่ใช่การตลาด: เราจัดอันดับโมเดล AI กันยังไงจริง ๆ

คำสัญญาที่เราให้ไว้ในเดือนพฤศจิกายน

ใน โพสต์เกี่ยวกับการเปรียบเทียบการตอบสนองคู่ของเรา เราขอให้คุณทำสิ่งเล็ก ๆ คือ เมื่อคุณเห็นการตอบสนองของ AI สองอันเคียงข้างกัน ให้เลือกอันที่คุณชอบ

เราสัญญาว่าทางเลือกเหล่านั้นจะมีความหมาย เราบอกว่าความชื่นชอบของคุณจะช่วยให้เราแนะนำโมเดลที่ดีกว่า ปรับการ routing ให้ดีขึ้น และ "สร้างฟีเจอร์ที่สอดคล้องกับความชื่นชอบของผู้ใช้จริง"

วันนี้เราเปิดตัวฟีเจอร์แรกที่สร้างขึ้นโดยตรงจากข้อมูลนั้น — และเราอยากอธิบายให้คุณฟังอย่างละเอียดว่ามันทำงานอย่างไร เพราะ ความโปร่งใสคือประเด็นทั้งหมด

ตัวเลือกโมเดลใหม่

เปิด dropdown โมเดลในแชทใดก็ได้ คุณจะสังเกตว่ามันไม่ใช่รายการชื่อแบนราบอีกต่อไป ทุกโมเดลตอนนี้มีตัวชี้วัดที่มองเห็นได้สองอย่าง:

คุณภาพ: คุณและผู้ใช้คนอื่น ๆ ชื่นชอบโมเดลนี้บ่อยแค่ไหนในการเปรียบเทียบ A/B จริง
ความเร็ว: มันตอบสนองเร็วแค่ไหนจริง ๆ โดยอิงจากข้อความไม่กี่ร้อยข้อความล่าสุด

แค่นั้น ไม่มีตราการตลาด ไม่มี "ตัวเลือกของบรรณาธิการ" ไม่มีสติกเกอร์ "พรีเมียม" ที่กุขึ้นมาเพื่อผลักให้คุณอัปเกรด มีแค่ตัวเลขสองตัว ทั้งคู่มาจากข้อมูลการใช้งานจริง

"คุณภาพ" ทำงานอย่างไร (และทำไมจึงต่างออกไป)

แพลตฟอร์ม AI ส่วนใหญ่จัดอันดับโมเดลด้วยวิธีใดวิธีหนึ่งจากสามวิธีนี้:

PR ของผู้ขาย: "Anthropic ออกโมเดลใหม่ เราก็โปรโมตมัน"
ความรู้สึกภายใน: "ทีมเราลองเล่นชั่วโมงหนึ่งแล้วชอบ"
ใครจ่ายเยอะที่สุด: "พาร์ทเนอร์ของเราให้ค่าคอมเดือนนี้"

ไม่มีวิธีไหนเลยที่จะบอกคุณว่าโมเดลนั้นดีจริงสำหรับ roleplay หรือไม่ — ซึ่งเป็นเหตุผลที่คุณมาที่นี่

นี่คือสิ่งที่เราทำแทน:

ขั้นตอนที่ 1: การประลอง A/B จริง

ทุกครั้งที่คุณเห็นการเปรียบเทียบการตอบสนองคู่และเลือกอันหนึ่ง เราบันทึกมันไว้ Prompt เดียวกัน ตัวละครเดียวกัน บริบทเดียวกัน — เปลี่ยนแค่โมเดล ทางเลือกของคุณคือสัญญาณเดียว

หลังจากผ่านไปหลายเดือน เรามี หลายหมื่นการประลองหัวต่อหัว ระหว่างทุกโมเดลที่ใช้งานบนแพลตฟอร์ม

ขั้นตอนที่ 2: Wilson Score ไม่ใช่อัตราชนะแบบไร้เดียงสา

นี่เป็นรายละเอียดที่ละเอียดอ่อนแต่สำคัญ ถ้าโมเดลมี 4 ชนะและ 1 แพ้ อัตราชนะแบบไร้เดียงสาคือ 80% ฟังดูดี แต่ 5 ตัวอย่างคือ noise ทางสถิติ โมเดลที่ 800 ชนะและ 200 แพ้ก็มีอัตรา 80% เหมือนกัน และเราควรเชื่อใจอันหลังมากกว่าอย่างชัดเจน

เราใช้ Wilson Score Lower Bound — อัลกอริทึมเดียวกับที่ Reddit ใช้จัดอันดับคอมเมนต์ มันจะ ลงโทษขนาดตัวอย่างเล็ก ๆ ดังนั้นโมเดลต้องมีทั้ง ความชื่นชอบสูง และ ข้อมูลที่เพียงพอ เพื่อจะไต่อันดับขึ้น

นี่คือเหตุผลที่คุณจะเห็นจุดความเชื่อมั่นเล็ก ๆ เรียงกันข้างทุกโมเดล: ●●●●○ หมายถึง "เรามีข้อมูลเยอะเกี่ยวกับอันนี้" ●●○○○ หมายถึง "ใช้ตัวเลขนี้ด้วยความระวัง" เราไม่ได้ซ่อนความไม่แน่นอน — เรากำลังแสดงมันให้คุณเห็น

ขั้นตอนที่ 3: เราไม่บอกตัวเลขดิบ

ที่นี่เราขีดเส้นเรื่องความเป็นส่วนตัว ตัวเลือกแสดง อัตราชนะ และ ระดับความเชื่อมั่น แต่ไม่เคยแสดงจำนวนสัมบูรณ์ โมเดลอาจถูกเลือก 1,200 ครั้งหรือ 12,000 ครั้ง — คุณจะเห็น "●●●●●" ทั้งสองกรณี เพราะการเปิดเผยตัวเลขที่แน่นอนจะรั่วข้อมูลว่าเรามีผู้ใช้กี่คนและพวกเขากำลังทำอะไร

นี่คือการแลกเปลี่ยนที่ตั้งใจ เราต้องการให้คุณเชื่อใจการประเมินโดยที่เราไม่ต้องกลายเป็นแดชบอร์ด analytics ที่ใครก็ scrape ได้

"ความเร็ว" ทำงานอย่างไร

คุณภาพคือตัวเลขเดียว ความเร็วต้องวัดจากคำขอจริง ไม่ใช่ benchmark ที่ผู้ขายอ้าง

ทุกข้อความที่เราให้บริการมี blob metadata พร้อม time-to-first-token (TTFT) จริงและ token ต่อวินาที สำหรับการตอบสนองนั้น เรารวบรวม ~50 อันล่าสุดต่อโมเดลและแสดง มัธยฐาน (p50) — ไม่ใช่ค่าเฉลี่ย

ทำไมถึงเป็นมัธยฐาน? เพราะ ค่าเฉลี่ยโกหกเมื่อมี outlier ถ้าโมเดลปกติเร็วแต่มีคืนช้าสามคืนเมื่อสัปดาห์ก่อน ค่าเฉลี่ยจะบอกคุณว่าโมเดลช้า มัธยฐานบอกคุณว่าคุณจะ ปกติ ได้ประสบการณ์อย่างไร และนั่นคือสิ่งที่คุณสนใจจริง ๆ

ถ้าคุณ hover ที่ตัวบ่งชี้ความเร็ว คุณจะเห็น p95 ด้วย — ความหน่วงในกรณีแย่ที่สุด บางโมเดลมีการกระจายความหน่วงที่แน่นมาก บางโมเดลมีหางยาว ตอนนี้คุณเห็นได้ทั้งสอง

ทำไมแถบความเร็วจึงใช้สเกลลอการิทึม

การตอบสนอง 1 วินาทีรู้สึกเร็วกว่าการตอบสนอง 5 วินาทีมาก การตอบสนอง 5 วินาทีรู้สึกเกือบเหมือนการตอบสนอง 6 วินาที การรับรู้ความหน่วงของมนุษย์เป็นลอการิทึม ดังนั้นแถบความเร็วถูกแมปบนสเกลลอการิทึมระหว่าง [500ms, 20s]

นี่หมายความว่าโมเดล reasoning ที่ใช้เวลา 18 วินาทีสำหรับโทเค็นแรก (ใช่ นี่คือข้อมูลจริง) จะปรากฏพร้อมแถบความเร็วที่แทบจะว่างเปล่า — ไม่ใช่เป็นเวอร์ชันสั้นกว่าเล็กน้อยของโมเดล 8 วินาที เพราะในความรู้สึกของคุณ ประสบการณ์ทั้งสองนั้นแตกต่างกันอย่างสิ้นเชิง

สิ่งที่เราตั้งใจ ไม่ ทำ

เราอยากระบุชัดเจนถึงสิ่งที่เราหลีกเลี่ยง:

ไม่มี "แนะนำสำหรับคุณ" แบบกล่องดำ การจัดเรียงเริ่มต้นคือข้อมูลล้วน ๆ: ตาม Wilson Score จากมากไปน้อย โมเดล Pro ลอยขึ้นมาด้านบน เพียงเพราะผู้ใช้ Pro จ่ายเงินซื้อมัน ไม่ใช่เพราะเราดันมันด้วยมือ ภายใน Pro และภายใน Free ลำดับเป็นไปตามที่คู่ควรล้วน ๆ
ไม่มีตรา "ใหม่และดีขึ้น" ปลอม ๆ โมเดลจะได้แท็ก NEW เฉพาะเมื่อถูกเพิ่มเข้าแพลตฟอร์มภายใน 14 วันที่ผ่านมา หลังจากนั้นตราจะหลุดออกอัตโนมัติ — ไม่มีมนุษย์คนไหนสามารถปักหมุดมันไว้ได้ตลอด
ไม่มีการจัดอันดับที่ขับเคลื่อนโดยพาร์ทเนอร์ เราไม่รับเงินจากผู้ให้บริการ AI ใด ๆ สำหรับการจัดวาง ถ้า OpenAI หรือ Anthropic ปล่อยโมเดลพรุ่งนี้ที่ติดอันดับสุดท้ายในการประลองของเรา มันจะอยู่ที่ก้นรายการ (และจริง ๆ แล้ว เราจะออกมันเหมือนเดิมแล้วปล่อยให้ข้อมูลพูดเอง)
ไม่มี "แพงที่สุดดีที่สุด" โมเดล Pro ที่แพงที่สุดของเราไม่ได้เป็นโมเดลคุณภาพสูงสุดบนแพลตฟอร์มในขณะนี้เสมอไป เราแสดงสิ่งนั้นให้คุณเห็น เราไม่ซ่อน

กลุ่ม "กำลังประเมิน"

เมื่อโมเดลใหม่เอี่ยม มันไม่มีข้อมูล A/B พอสำหรับ Wilson Score ที่มีความหมาย การติดอัตราชนะ 50% ให้มันจะเป็นการทำให้เข้าใจผิด

ดังนั้นโมเดลใหม่จะเข้ากลุ่ม กำลังประเมิน ที่ด้านบนของตัวเลือก พวกมันแสดงความเร็ว (ที่เราวัดได้ทันที) แต่บอก "กำลังเก็บข้อมูล" ในตำแหน่งของตัวเลขคุณภาพ เมื่อสะสมการประลองพอเพียง พวกมันจะจบการศึกษาเข้าสู่รายการจัดอันดับหลักโดยอัตโนมัติ

คุณจะรู้เสมอว่าการประเมินที่คุณดูนั้นมีความหมายทางสถิติหรือเป็นเพียงตัวยึดที่

ทำไมสิ่งนี้จึงสำคัญ

พื้นที่ AI companion เต็มไปด้วยแพลตฟอร์มที่พูดมากเกี่ยวกับ "โมเดลที่ดีที่สุด" โดยไม่เคยแสดงตัวเลขสักตัวเดียวให้คุณเห็น บางที่ขายโมเดลที่ถูกกว่าด้วยราคาพรีเมียม บางที่ route คุณไปยังโมเดลที่กำลังลดราคาเดือนนี้ บางที่แค่เดา

เราเลือก default ที่แตกต่าง: บอกความจริง แสดงคณิตศาสตร์ ปล่อยให้คุณตัดสินใจ

คุณไม่ต้องเชื่อใจเราเมื่อเราบอกว่าโมเดลดี คุณดูแถบ ดูจุดความเชื่อมั่น hover ดู p95 และตัดสินด้วยตัวเอง ถ้าคุณคิดว่าข้อมูลผิด การเปรียบเทียบการตอบสนองคู่ยังคงทำงานในแชทของคุณอยู่ — และโหวตความชื่นชอบครั้งต่อไปของคุณจะขยับตัวเลข

ขอเตือน: ทั้งหมดเป็น API ทางการ

นี่ก็เป็นช่วงเวลาที่ดีในการพูดซ้ำสิ่งที่เราเคยพูดมาก่อน: ทุกโมเดลในตัวเลือกถูกให้บริการผ่าน API ทางการของผู้ให้บริการ ไม่มีของก๊อปที่ fine-tune แล้ว ไม่มีของแทนที่ที่ quantize แล้ว ไม่มีโมเดลลึกลับ "เทียบเท่า GPT-4" จากบุคคลที่สาม

ถ้าตัวเลือกบอกว่า "Claude Opus 4.6" คุณกำลังคุยกับ Claude Opus 4.6 ถ้าบอกว่า "DeepSeek V3.2" คุณกำลังคุยกับ DeepSeek V3.2 คะแนนคุณภาพมีความหมายเพราะโมเดลเป็นของจริง

ขั้นตอนต่อไป

ตัวเลือกคือส่วนที่มองเห็นได้ ยังมีอีกมากที่เราอยากทำกับข้อมูลนี้:

คำแนะนำตามตัวละคร โมเดลต่าง ๆ เก่งในต้นแบบตัวละครต่าง ๆ ข้อมูลความชื่นชอบของเราควรช่วยให้เราแนะนำได้ว่า "ผู้ใช้มีแนวโน้มชอบโมเดล X สำหรับตัวละครประเภทนี้"
การจัดอันดับเฉพาะบุคคล ตอนนี้ทุกคนเห็นการจัดอันดับสากลเดียวกัน ในที่สุด โมเดลที่คุณชอบ ควรลอยขึ้นมาด้านบนตามทางเลือกในอดีตของคุณเอง
การแจ้งเตือนสุขภาพโมเดลแบบสด ถ้า API ของผู้ให้บริการมีวันที่แย่และ TTFT พุ่งสูง ตัวเลือกควรสะท้อนสิ่งนั้นภายในหนึ่งชั่วโมง ไม่ใช่วันถัดไป

แต่ทั้งหมดนั้นต้องการรากฐานของข้อมูลที่ซื่อสัตย์ รากฐานนั้นคือสิ่งที่เรากำลังเปิดตัวในวันนี้

เปิดตัวเลือกโมเดลในแชทถัดไปและลองดู ถ้าคุณเคยโหวตในการเปรียบเทียบการตอบสนองคู่ ลายนิ้วมือของคุณอยู่บนทุกตัวเลขที่คุณเห็น

ลองตัวเลือกใหม่ →