Tingkat Kemenangan A/B Buta
Saat pengguna membandingkan dua balasan tanpa tahu model mana yang menulisnya, kami mencatat pilihannya. Tingkat kemenangan berasal dari duel buta itu, dinilai dengan interval kepercayaan Wilson.
Model dari delapan vendor, masing-masing dengan skor kualitas dari uji A/B buta, tingkat suka pengguna, dan statistik kecepatan langsung — tepat di pemilih model. Ganti kapan saja, termasuk di tengah percakapan.
DeepSeek V4 Flash
DeepSeek
GLM 5
Z.AI
Llama 3.1 8B
Meta
Posisi kami
Semua platform bilang AI-nya hebat. Kami lebih suka menunjukkan tingkat kemenangan dan membiarkan model-model itu membela diri sendiri.
— Tim Reverie
Transparan secara default
Empat metrik, diukur dari percakapan sungguhan di Reverie — bukan benchmark vendor yang disalin dari siaran pers.
Saat pengguna membandingkan dua balasan tanpa tahu model mana yang menulisnya, kami mencatat pilihannya. Tingkat kemenangan berasal dari duel buta itu, dinilai dengan interval kepercayaan Wilson.
Setiap jempol naik dan jempol turun pada balasan sungguhan masuk ke tingkat suka per model, jadi kamu bisa melihat bagaimana tiap model diterima para roleplayer sejati.
Berapa lama sebelum model mulai menjawab — rata-rata, median, dan p95, diukur dari trafik langsung di infrastruktur kami sendiri.
Kecepatan generasi murni begitu balasan mulai mengalir. Model cepat menjaga adegan panjang tetap bergerak — dan kamu bisa melihat persis model mana saja itu.
Setiap statistik kualitas membawa tingkat kepercayaan 1–5 bintang berdasarkan ukuran sampel, jadi kamu tahu seberapa mantap sebuah angka sebelum memercayainya.
Model baru dimulai dalam status 'evaluating' — kami menampilkannya tanpa klaim kualitas sampai cukup banyak perbandingan buta terkumpul untuk mengatakan sesuatu secara jujur.
Lineup saat ini
Dibaca langsung dari registri model kami — saat lineup berubah, tabel ini ikut berubah.
| Model | Konteks | Penalaran | Biaya |
|---|---|---|---|
DeepSeek V3.2Dasar DeepSeek | 164K | — | 0.5× kredit |
DeepSeek V4 FlashDasar DeepSeek | 164K | Opsional | 0.3× kredit |
DeepSeek V4 ProDasar DeepSeek | 164K | Opsional | 0.7× kredit |
DeepSeek R1Dasar DeepSeek | 164K | Selalu aktif | 1× kredit |
MiMo V2 FlashDasar Xiaomi | 262K | Opsional | 0.3× kredit |
MiMo V2.5Dasar Xiaomi | 262K | Opsional | 0.3× kredit |
GLM 4.5 AirDasar Z.AI | 131K | Opsional | 0.5× kredit |
GLM 4.7Dasar Z.AI | 200K | Opsional | 1× kredit |
GLM 5Lanjutan Z.AI | 200K | Opsional | 1.3× kredit |
Gemini 3 Flash PreviewLanjutan | 1M | — | 1.2× kredit |
Llama 3.1 8BDasar Meta | 131K | — | Gratis |
Pengali kredit relatif terhadap tarif kredit dasar. Model generasi gambar dan video tersedia terpisah di chat.
Yang kamu dapat
Mengganti model di sini bukan easter egg di menu pengaturan. Memang begitulah produk ini dirancang untuk dipakai.
Ganti model di antara pesan tanpa kehilangan alur. Panggil model yang lebih tajam untuk adegan krusial, kembali lagi untuk obrolan ringan.
Tidak suka balasannya? Ulangi dengan model berbeda dan simpan versi yang lebih enak dibaca. Pilihan itu masuk ke statistik tingkat kemenangan.
Kreator bisa menetapkan model pilihan untuk tiap karakter, sehingga ia bicara dengan mesin yang memang ditulis untuknya. Pilihanmu sendiri selalu menggantikannya.
Model gratis yang mumpuni tetap ada di menu dengan nol kredit, dengan batas wajar pakai — kehabisan kredit tidak pernah berarti kehabisan percakapan.
Setiap model menampilkan pengali kreditnya — dari model hemat 0.3× sampai model frontier 2× — jadi biaya adalah pilihanmu, bukan kejutan di tagihan.
Model penalaran murni untuk plot rumit, dan model hybrid yang berpikir hanya saat diminta. Pilih otak yang pas untuk adegannya.
Pertanyaan umum
Kebanyakan platform memilih satu model, memberinya merek, dan bilang model itu luar biasa. Reverie menjalankan banyak model dan mempublikasikan performa sebenarnya satu sama lain — di dalam produk, tepat di tempat kamu memilih.
Skor kualitas berasal dari pengguna yang memilih di antara dua balasan anonim. Label maupun vendor tidak terlihat selama perbandingan, jadi angkanya mengukur tulisan, bukan merek.
Di luar skor agregat, pemilih model menampilkan data duel langsung — model mana mengalahkan model mana, dan dengan selisih berapa, dalam perbandingan yang benar-benar dijalankan pengguna.
Skor dari empat puluh perbandingan bukanlah skor dari empat ribu. Setiap metrik membawa tingkat kepercayaan 1–5 bintang dari ukuran sampel, ditampilkan di samping angkanya.
Waktu-ke-token-pertama dan token-per-detik diukur dari percakapan produksi — rata-rata, median, dan p95 — bukan dikutip dari lembar data vendor.
Adegan yang berbeda butuh otak yang berbeda. Romansa slow-burn yang panjang, rapat perang taktis, dan lawakan singkat tidak punya model ideal yang sama — jadi kamu tidak seharusnya terkunci pada satu model.
Model chat dari DeepSeek, Google, Z.AI, Xiaomi, Meta, dan lainnya, dengan jendela konteks dari 131K sampai sejuta token, semua di balik satu antarmuka dan satu saldo kredit.
Model diberi harga satu per satu, dari 0.3× sampai 2× tarif kredit dasar, dan pengalinya tercetak di kartu model. Model murah untuk adegan sehari-hari, model frontier saat momen penting.
Model penalaran khusus berpikir sebelum menulis untuk plot rumit; model hybrid menalar sesuai permintaan; model multimodal bisa membaca gambar yang kamu unggah ke chat.
Model gratis tetap tersedia berapa pun saldomu, dengan batas wajar pakai — fondasi di bawah setiap percakapan, bukan trial yang kedaluwarsa.
Saat siap
Buka pemilih model di chat mana pun, urutkan berdasarkan angka, dan temukan favoritmu.