Dữ liệu thật, không phải marketing: Cách chúng tôi thực sự xếp hạng các mô hình AI

Lời hứa từ tháng 11

Trong bài viết về so sánh phản hồi kép của chúng tôi, chúng tôi đã yêu cầu bạn làm một việc nhỏ: khi bạn thấy hai phản hồi AI cạnh nhau, chọn cái bạn thích hơn.

Chúng tôi đã hứa rằng những lựa chọn đó sẽ có ý nghĩa. Chúng tôi đã nói rằng sở thích của bạn sẽ giúp chúng tôi đề xuất các mô hình tốt hơn, tối ưu hóa định tuyến và "xây dựng các tính năng phù hợp với sở thích người dùng thực sự."

Hôm nay chúng tôi ra mắt tính năng đầu tiên được xây dựng trực tiếp trên dữ liệu đó — và chúng tôi muốn giải thích chính xác cách nó hoạt động, vì tính minh bạch chính là điểm mấu chốt.

Bộ chọn mô hình mới

Mở dropdown mô hình trong bất kỳ cuộc trò chuyện nào. Bạn sẽ nhận thấy nó không còn là một danh sách tên phẳng nữa. Mỗi mô hình giờ đây có hai chỉ số hiển thị:

Chất lượng: bao nhiêu lần bạn và những người dùng khác đã thích mô hình này trong các so sánh A/B thực
Tốc độ: nó thực sự phản hồi nhanh như thế nào, dựa trên vài trăm tin nhắn gần đây

Chỉ có vậy. Không có huy hiệu marketing. Không có "Lựa chọn của biên tập viên". Không có nhãn dán "Premium" được bịa ra để khiến bạn nâng cấp. Chỉ là hai con số, cả hai đều xuất phát từ dữ liệu sử dụng thực.

Cách "Chất lượng" hoạt động (và tại sao nó khác)

Hầu hết các nền tảng AI xếp hạng mô hình theo một trong ba cách:

PR của nhà cung cấp: "Anthropic ra mô hình mới, vậy hãy quảng bá nó."
Cảm tính nội bộ: "Đội của chúng tôi đã thử trong một giờ và thấy thích."
Ai trả nhiều nhất: "Đối tác của chúng tôi đang đưa hoa hồng tháng này."

Không cách nào trong số này cho bạn biết liệu một mô hình có thực sự tốt cho roleplay hay không — đó là lý do bạn ở đây.

Đây là những gì chúng tôi làm thay vào đó:

Bước 1: Đối đầu A/B thực sự

Mỗi lần bạn thấy so sánh phản hồi kép và chọn một trong hai, chúng tôi đã ghi lại điều đó. Cùng một prompt, cùng một nhân vật, cùng một ngữ cảnh — chỉ có mô hình thay đổi. Lựa chọn của bạn là tín hiệu duy nhất.

Sau nhiều tháng làm việc này, chúng tôi có hàng chục nghìn cuộc đối đầu trực tiếp trên mỗi mô hình đang hoạt động trên nền tảng.

Bước 2: Wilson Score, không phải tỷ lệ thắng ngây thơ

Đây là một chi tiết tinh tế nhưng quan trọng. Nếu một mô hình có 4 thắng và 1 thua, tỷ lệ thắng ngây thơ của nó là 80%. Nghe có vẻ tuyệt. Nhưng 5 mẫu là nhiễu thống kê. Một mô hình với 800 thắng và 200 thua cũng có tỷ lệ thắng 80%, và rõ ràng chúng ta nên tin tưởng cái thứ hai hơn.

Chúng tôi sử dụng Wilson Score Lower Bound — cùng một thuật toán mà Reddit sử dụng để xếp hạng bình luận. Nó phạt các kích thước mẫu nhỏ, vì vậy một mô hình cần cả sở thích cao và đủ dữ liệu để leo lên trong xếp hạng.

Đây là lý do bạn sẽ thấy một hàng các chấm độ tin cậy nhỏ bên cạnh mỗi mô hình: ●●●●○ có nghĩa là "chúng tôi có nhiều dữ liệu về cái này." ●●○○○ có nghĩa là "hãy thận trọng với con số này." Chúng tôi không che giấu sự không chắc chắn — chúng tôi đang cho bạn thấy nó.

Bước 3: Chúng tôi không bao giờ cho biết các con số thô

Đây là nơi chúng tôi vạch một ranh giới về quyền riêng tư. Bộ chọn hiển thị tỷ lệ thắng và mức độ tin cậy, nhưng không bao giờ là số đếm tuyệt đối. Một mô hình có thể đã được chọn 1.200 lần hoặc 12.000 lần — bạn sẽ thấy "●●●●●" cho cả hai, vì việc tiết lộ con số chính xác sẽ làm lộ ra chúng tôi có bao nhiêu người dùng và họ đang làm gì.

Đây là một sự đánh đổi có chủ ý. Chúng tôi muốn bạn tin tưởng vào đánh giá mà không biến mình thành một bảng điều khiển phân tích mà bất kỳ ai cũng có thể scrape.

Cách "Tốc độ" hoạt động

Chất lượng là một con số. Tốc độ phải được đo từ các yêu cầu thực, không phải từ các benchmark mà nhà cung cấp công bố.

Mỗi tin nhắn chúng tôi phục vụ đều mang theo một blob metadata với time-to-first-token (TTFT) thực tế và token mỗi giây cho phản hồi đó. Chúng tôi tổng hợp ~50 cái gần nhất cho mỗi mô hình và hiển thị trung vị (p50) — không phải trung bình.

Tại sao là trung vị? Vì trung bình nói dối khi có outlier. Nếu một mô hình thường nhanh nhưng có ba đêm chậm tuần trước, trung bình sẽ nói với bạn rằng mô hình chậm. Trung vị cho bạn biết những gì bạn sẽ thường trải nghiệm, và đó là điều bạn thực sự quan tâm.

Nếu bạn di chuột qua chỉ báo tốc độ, bạn cũng sẽ thấy p95 — độ trễ trong trường hợp xấu nhất. Một số mô hình có phân phối độ trễ rất chặt, một số khác có đuôi dài. Bây giờ bạn có thể thấy cả hai.

Tại sao thanh tốc độ sử dụng thang logarit

Một phản hồi 1 giây cảm thấy nhanh hơn nhiều so với một phản hồi 5 giây. Một phản hồi 5 giây cảm thấy gần giống như một phản hồi 6 giây. Nhận thức về độ trễ của con người là logarit, vì vậy thanh tốc độ được ánh xạ trên thang logarit từ [500ms, 20s].

Điều này có nghĩa là một mô hình suy luận mất 18 giây cho token đầu tiên (vâng, đây là dữ liệu thực) hiển thị với thanh tốc độ gần như trống — không phải là phiên bản ngắn hơn một chút của mô hình 8 giây. Bởi vì trong cảm nhận trực giác của bạn, hai trải nghiệm đó hoàn toàn khác nhau.

Những gì chúng tôi cố ý không làm

Chúng tôi muốn cụ thể về những điều chúng tôi tránh:

Không có hộp đen "Đề xuất cho bạn". Sắp xếp mặc định chỉ là dữ liệu: theo Wilson Score, giảm dần. Các mô hình Pro nổi lên trên chỉ vì người dùng Pro đã trả tiền cho chúng, không phải vì chúng tôi đẩy chúng thủ công. Trong Pro và trong Free, thứ tự hoàn toàn được kiếm.
Không có huy hiệu "Mới và cải tiến" giả. Một mô hình chỉ nhận được thẻ NEW nếu nó được thêm vào nền tảng trong vòng 14 ngày qua. Sau đó huy hiệu tự động rơi xuống — không có con người nào có thể giữ nó được ghim mãi.
Không có xếp hạng do đối tác thúc đẩy. Chúng tôi không nhận thanh toán từ bất kỳ nhà cung cấp AI nào cho việc đặt vị trí. Nếu OpenAI hoặc Anthropic ngày mai phát hành một mô hình xếp hạng tệ nhất trong các cuộc đối đầu của chúng tôi, nó sẽ ở dưới cùng của danh sách. (Và thành thật mà nói, chúng tôi vẫn sẽ ra mắt nó và để dữ liệu lên tiếng.)
Không có "đắt nhất là tốt nhất". Mô hình Pro đắt nhất của chúng tôi không phải lúc nào cũng là mô hình chất lượng cao nhất trên nền tảng hiện tại. Chúng tôi cho bạn thấy điều đó. Chúng tôi không che giấu.

Nhóm "Đang đánh giá"

Khi một mô hình hoàn toàn mới, nó không có đủ dữ liệu A/B để có Wilson Score có ý nghĩa. Dán cho nó tỷ lệ thắng 50% sẽ gây hiểu lầm.

Vì vậy các mô hình mới đi vào nhóm Đang đánh giá ở đầu bộ chọn. Chúng hiển thị tốc độ của mình (mà chúng tôi có thể đo ngay lập tức) nhưng nói "Đang thu thập dữ liệu" ở vị trí số chất lượng. Khi chúng tích lũy đủ các cuộc đối đầu, chúng tự động tốt nghiệp vào danh sách xếp hạng chính.

Bạn sẽ luôn biết liệu đánh giá bạn đang nhìn có ý nghĩa thống kê hay chỉ là một placeholder.

Tại sao điều này quan trọng

Không gian đồng hành AI đầy rẫy những nền tảng nói rất nhiều về "những mô hình tốt nhất" mà không bao giờ cho bạn thấy một con số nào. Một số đang bán mô hình rẻ với giá cao cấp. Một số định tuyến bạn đến mô hình đang giảm giá tháng này. Một số chỉ đoán.

Chúng tôi chọn một mặc định khác: nói cho bạn sự thật, cho bạn thấy toán học, để bạn quyết định.

Bạn không cần phải tin chúng tôi khi chúng tôi nói một mô hình tốt. Bạn có thể nhìn thanh, xem các chấm độ tin cậy, di chuột qua p95, và đưa ra ý kiến riêng. Nếu bạn nghĩ dữ liệu sai, so sánh phản hồi kép vẫn đang chạy trong các cuộc trò chuyện của bạn — và phiếu bầu sở thích tiếp theo của bạn sẽ di chuyển con số.

Nhắc lại: tất cả đều là API chính thức

Đây cũng là một thời điểm tốt để lặp lại điều chúng tôi đã nói trước đó: mỗi mô hình trong bộ chọn được phục vụ thông qua API chính thức của nhà cung cấp. Không có bản nhái fine-tuned. Không có phiên bản thay thế đã quantized. Không có mô hình bí ẩn "tương đương GPT-4" từ bên thứ ba.

Nếu bộ chọn nói "Claude Opus 4.6", bạn đang nói chuyện với Claude Opus 4.6. Nếu nó nói "DeepSeek V3.2", bạn đang nói chuyện với DeepSeek V3.2. Điểm chất lượng có ý nghĩa chính xác vì các mô hình là thật.

Tiếp theo là gì

Bộ chọn là phần có thể nhìn thấy. Có nhiều hơn nữa chúng tôi muốn làm với dữ liệu này:

Đề xuất theo nhân vật. Các mô hình khác nhau xuất sắc ở các nguyên mẫu nhân vật khác nhau. Dữ liệu sở thích của chúng tôi sẽ cho phép chúng tôi đề xuất "người dùng có xu hướng thích mô hình X cho loại nhân vật này."
Xếp hạng cá nhân hóa. Hiện tại tất cả mọi người đều thấy cùng một xếp hạng toàn cầu. Cuối cùng các mô hình ưa thích của bạn nên nổi lên trên dựa trên các lựa chọn quá khứ của riêng bạn.
Cảnh báo sức khỏe mô hình trực tiếp. Nếu API của nhà cung cấp gặp ngày tồi tệ và TTFT tăng vọt, bộ chọn nên phản ánh điều đó trong vòng một giờ, không phải ngày hôm sau.

Nhưng tất cả điều đó đòi hỏi nền tảng dữ liệu trung thực. Nền tảng đó là những gì chúng tôi đang ra mắt hôm nay.

Mở bộ chọn mô hình trong cuộc trò chuyện tiếp theo của bạn và xem qua. Nếu bạn đã bỏ phiếu trong các so sánh phản hồi kép, dấu vân tay của bạn có trên mỗi con số bạn thấy.

Thử bộ chọn mới →