Tỷ Lệ Thắng A/B Mù
Khi người dùng so sánh hai câu trả lời mà không biết mô hình nào viết cái nào, chúng tôi ghi lại lựa chọn. Tỷ lệ thắng đến từ những trận so kè mù đó, chấm bằng khoảng tin cậy Wilson.
Mô hình từ tám nhà cung cấp, mỗi cái kèm điểm chất lượng từ kiểm thử A/B mù, tỷ lệ thích của người dùng và thống kê tốc độ trực tiếp — ngay trong trình chọn. Đổi bất cứ lúc nào, kể cả giữa cuộc trò chuyện.
DeepSeek V4 Flash
DeepSeek
GLM 5
Z.AI
Llama 3.1 8B
Meta
Lập trường của chúng tôi
Nền tảng nào cũng nói AI của mình tuyệt vời. Chúng tôi thà cho bạn xem tỷ lệ thắng và để các mô hình tự biện hộ cho mình.
— Đội ngũ Reverie
Minh bạch mặc định
Bốn chỉ số, đo từ các cuộc trò chuyện thật trên Reverie — không phải benchmark của nhà cung cấp chép từ thông cáo báo chí.
Khi người dùng so sánh hai câu trả lời mà không biết mô hình nào viết cái nào, chúng tôi ghi lại lựa chọn. Tỷ lệ thắng đến từ những trận so kè mù đó, chấm bằng khoảng tin cậy Wilson.
Mỗi lượt thích và không thích trên câu trả lời thật được gộp vào tỷ lệ thích theo từng mô hình, để bạn thấy mỗi mô hình được người chơi roleplay thực thụ đón nhận ra sao.
Bao lâu trước khi mô hình bắt đầu trả lời — trung bình, trung vị và p95, đo từ lưu lượng trực tiếp trên hạ tầng của chính chúng tôi.
Tốc độ sinh nội dung thuần túy khi câu trả lời bắt đầu tuôn chảy. Mô hình nhanh giữ cho các cảnh dài luôn chuyển động — và bạn thấy chính xác đó là những mô hình nào.
Mỗi chỉ số chất lượng đi kèm mức tin cậy 1–5 sao dựa trên cỡ mẫu, để bạn biết một con số đã ổn định đến đâu trước khi tin nó.
Mô hình mới bắt đầu ở trạng thái 'evaluating' — chúng tôi hiển thị chúng mà không kèm tuyên bố chất lượng nào cho đến khi tích lũy đủ so sánh mù để nói điều gì đó một cách trung thực.
Đội hình hiện tại
Đọc trực tiếp từ sổ đăng ký mô hình của chúng tôi — khi đội hình thay đổi, bảng này đổi theo.
| Mô hình | Ngữ cảnh | Suy luận | Chi phí |
|---|---|---|---|
DeepSeek V3.2Cơ bản DeepSeek | 164K | — | 0.5× tín dụng |
DeepSeek V4 FlashCơ bản DeepSeek | 164K | Tùy chọn | 0.3× tín dụng |
DeepSeek V4 ProCơ bản DeepSeek | 164K | Tùy chọn | 0.7× tín dụng |
DeepSeek R1Cơ bản DeepSeek | 164K | Luôn bật | 1× tín dụng |
MiMo V2 FlashCơ bản Xiaomi | 262K | Tùy chọn | 0.3× tín dụng |
MiMo V2.5Cơ bản Xiaomi | 262K | Tùy chọn | 0.3× tín dụng |
GLM 4.5 AirCơ bản Z.AI | 131K | Tùy chọn | 0.5× tín dụng |
GLM 4.7Cơ bản Z.AI | 200K | Tùy chọn | 1× tín dụng |
GLM 5Nâng cao Z.AI | 200K | Tùy chọn | 1.3× tín dụng |
Gemini 3 Flash PreviewNâng cao | 1M | — | 1.2× tín dụng |
Llama 3.1 8BCơ bản Meta | 131K | — | Miễn phí |
Hệ số tín dụng tính tương đối so với mức tín dụng cơ sở. Mô hình tạo ảnh và video có sẵn riêng trong chat.
Bạn nhận được gì
Ở đây đổi mô hình không phải easter egg trong menu cài đặt. Đó chính là cách sản phẩm được thiết kế để dùng.
Đổi mô hình giữa các tin nhắn mà không mất mạch truyện. Gọi mô hình sắc bén hơn cho cảnh then chốt, quay lại mô hình nhẹ cho chuyện phiếm.
Không ưng câu trả lời? Quay lại nó bằng mô hình khác và giữ phiên bản đọc hay hơn. Những lựa chọn đó được đưa vào thống kê tỷ lệ thắng.
Người sáng tạo có thể đặt mô hình ưa thích cho mỗi nhân vật, để nó nói bằng đúng engine nó được viết cho. Lựa chọn của riêng bạn luôn được ưu tiên hơn.
Một mô hình miễn phí đủ tốt luôn nằm trong danh sách với 0 tín dụng, kèm giới hạn sử dụng hợp lý — hết tín dụng không bao giờ đồng nghĩa hết chuyện để nói.
Mỗi mô hình hiển thị hệ số tín dụng của nó — từ mô hình tiết kiệm 0.3× đến mô hình tiên phong 2× — để chi phí là lựa chọn của bạn, không phải bất ngờ trên hóa đơn.
Mô hình suy luận thuần cho cốt truyện phức tạp, và mô hình lai chỉ suy nghĩ khi được yêu cầu. Chọn bộ não hợp với cảnh.
Câu hỏi thường gặp
Hầu hết nền tảng chọn một mô hình, gắn thương hiệu và bảo bạn rằng nó tuyệt vời. Reverie chạy nhiều mô hình và công bố chúng thực sự thể hiện ra sao khi đối đầu nhau — ngay trong sản phẩm, nơi bạn chọn.
Điểm chất lượng đến từ việc người dùng chọn giữa hai câu trả lời ẩn danh. Không nhãn, không tên hãng nào hiện ra trong lúc so sánh, nên con số đo chất lượng viết, không đo thương hiệu.
Ngoài điểm tổng hợp, trình chọn còn hiển thị dữ liệu đối đầu trực tiếp — mô hình nào thắng mô hình nào, và cách biệt bao nhiêu, trong các so sánh người dùng thực sự thực hiện.
Điểm từ bốn mươi lần so sánh không giống điểm từ bốn nghìn lần. Mỗi chỉ số mang mức tin cậy 1–5 sao suy ra từ cỡ mẫu, hiển thị ngay cạnh con số.
Thời-gian-đến-token-đầu và token-mỗi-giây được đo từ các cuộc trò chuyện thực tế — trung bình, trung vị và p95 — không trích từ tài liệu của nhà cung cấp.
Mỗi cảnh cần một bộ não khác nhau. Chuyện tình chậm rãi kéo dài, hội đồng chiến tranh đầy toan tính và màn hài hước chớp nhoáng không có cùng một mô hình lý tưởng — vậy bạn không nên bị khóa vào một cái.
Mô hình chat từ DeepSeek, Google, Z.AI, Xiaomi, Meta và nhiều hãng khác, với cửa sổ ngữ cảnh từ 131K đến một triệu token, tất cả sau một giao diện và một số dư tín dụng.
Mô hình được định giá riêng lẻ, từ 0.3× đến 2× mức tín dụng cơ sở, và hệ số được in ngay trên thẻ mô hình. Mô hình rẻ cho cảnh thường ngày, mô hình tiên phong khi cần thiết.
Mô hình suy luận chuyên dụng nghĩ trước khi viết cho cốt truyện phức tạp; mô hình lai suy luận theo yêu cầu; mô hình đa phương thức đọc được ảnh bạn tải lên chat.
Mô hình miễn phí luôn sẵn sàng bất kể số dư của bạn, kèm giới hạn sử dụng hợp lý — một mức sàn dưới mọi cuộc trò chuyện, không phải bản dùng thử hết hạn.
Khi sẵn sàng
Mở trình chọn mô hình trong bất kỳ chat nào, sắp xếp theo con số và tìm mô hình ưa thích của bạn.