Kör A/B Kazanma Oranı
Kullanıcılar hangisini hangi modelin yazdığını bilmeden iki cevabı karşılaştırdığında seçimi kaydederiz. Kazanma oranları bu kör eşleşmelerden gelir ve Wilson güven aralıklarıyla puanlanır.
Sekiz üreticiden modeller; her biri kör A/B testlerinden kalite puanları, kullanıcı beğeni oranları ve canlı hız istatistikleriyle — doğrudan seçicide. İstediğiniz an değiştirin, sohbetin ortası dahil.
DeepSeek V4 Flash
DeepSeek
GLM 5
Z.AI
Llama 3.1 8B
Meta
Duruşumuz
Her platform kendi yapay zekasının harika olduğunu söyler. Biz size kazanma oranlarını gösterip modellerin kendi adlarına konuşmasını tercih ediyoruz.
— Reverie ekibi
Varsayılan olarak şeffaf
Reverie'deki gerçek sohbetlerden ölçülen dört metrik — bir basın bülteninden kopyalanmış üretici benchmark'ları değil.
Kullanıcılar hangisini hangi modelin yazdığını bilmeden iki cevabı karşılaştırdığında seçimi kaydederiz. Kazanma oranları bu kör eşleşmelerden gelir ve Wilson güven aralıklarıyla puanlanır.
Gerçek cevaplara verilen her beğeni ve beğenmeme, model başına bir beğeni oranında toplanır; her modelin gerçek rol yapanlarda nasıl karşılık bulduğunu görürsünüz.
Modelin cevaplamaya başlaması ne kadar sürüyor — ortalama, medyan ve p95; kendi altyapımızdaki canlı trafikten ölçülür.
Cevap akmaya başladıktan sonraki ham üretim hızı. Hızlı modeller uzun sahneleri akıcı tutar — hangilerinin öyle olduğunu da tam olarak görürsünüz.
Her kalite istatistiği, örneklem büyüklüğüne dayalı 1–5 yıldızlık bir güven seviyesi taşır; bir sayıya güvenmeden önce ne kadar oturmuş olduğunu bilirsiniz.
Yeni modeller 'değerlendiriliyor' durumunda başlar — dürüstçe bir şey söyleyecek kadar kör karşılaştırma birikene dek onları kalite iddiası olmadan gösteririz.
Güncel kadro
Model kayıt defterimizden canlı okunur — kadro değiştiğinde bu tablo da onunla birlikte değişir.
| Model | Bağlam | Muhakeme | Maliyet |
|---|---|---|---|
DeepSeek V3.2Temel DeepSeek | 164K | — | 0.5× kredi |
DeepSeek V4 FlashTemel DeepSeek | 164K | İsteğe bağlı | 0.3× kredi |
DeepSeek V4 ProTemel DeepSeek | 164K | İsteğe bağlı | 0.7× kredi |
DeepSeek R1Temel DeepSeek | 164K | Her zaman açık | 1× kredi |
MiMo V2 FlashTemel Xiaomi | 262K | İsteğe bağlı | 0.3× kredi |
MiMo V2.5Temel Xiaomi | 262K | İsteğe bağlı | 0.3× kredi |
GLM 4.5 AirTemel Z.AI | 131K | İsteğe bağlı | 0.5× kredi |
GLM 4.7Temel Z.AI | 200K | İsteğe bağlı | 1× kredi |
GLM 5Gelişmiş Z.AI | 200K | İsteğe bağlı | 1.3× kredi |
Gemini 3 Flash PreviewGelişmiş | 1M | — | 1.2× kredi |
Llama 3.1 8BTemel Meta | 131K | — | Ücretsiz |
Kredi çarpanları, taban kredi oranına görelidir. Görüntü ve video üretim modelleri sohbette ayrıca sunulur.
Neler elde edersiniz
Model değiştirmek burada ayarlar menüsünde saklı bir sürpriz değil. Ürün böyle kullanılsın diye tasarlandı.
Akışı kaybetmeden mesajlar arasında model değiştirin. Kilit sahne için daha keskin bir model getirin, havadan sudan konuşurken geri dönün.
Cevabı beğenmediniz mi? Farklı bir modelle yeniden üretin ve daha iyi okunan versiyonu tutun. Bu seçimler kazanma oranı istatistiklerini besler.
Oluşturucular her karakter için tercih edilen bir model belirleyebilir; böylece karakter, kendisi için yazıldığı motorla konuşur. Sizin seçiminiz her zaman önceliklidir.
Yetenekli bir ücretsiz model, adil kullanım sınırlarıyla sıfır kredi karşılığında menüde kalır — kredinin bitmesi asla sohbetin bitmesi anlamına gelmez.
Her model kendi kredi çarpanını gösterir — 0.3× ekonomik modellerden 2× öncü modellere. Maliyet, faturada sürpriz değil, sizin verdiğiniz bir karardır.
Girift kurgular için saf muhakeme modelleri ve yalnızca istendiğinde düşünen hibritler. Sahneye uyan beyni seçin.
Sık sorulan sorular
Çoğu platform tek bir model seçer, ona marka giydirir ve harika olduğunu söyler. Reverie birçok model çalıştırır ve birbirlerine karşı gerçekte nasıl performans gösterdiklerini yayınlar — ürünün içinde, seçim yaptığınız yerde.
Kalite puanları, kullanıcıların iki anonim cevap arasından yaptığı seçimlerden gelir. Karşılaştırma sırasında ne etiket ne üretici görünür; yani rakamlar markayı değil, yazımı ölçer.
Toplam puanların ötesinde seçici, doğrudan eşleşme verilerini gösterir — kullanıcıların gerçekten yaptığı karşılaştırmalarda hangi model hangisini, ne farkla yeniyor.
Kırk karşılaştırmadan çıkan puan, dört bin karşılaştırmadan çıkan puanla aynı değildir. Her metrik, örneklem büyüklüğünden türetilen ve sayının yanında gösterilen 1–5 yıldızlık bir güven seviyesi taşır.
İlk token süresi ve saniyedeki token, üretim ortamındaki sohbetlerden ölçülür — ortalama, medyan ve p95 — bir üretici veri sayfasından alıntılanmaz.
Farklı sahneler farklı beyinler ister. Ağır ilerleyen uzun bir romantizm, taktiksel bir savaş konseyi ve hızlı bir komedi atışmasının ideal modeli aynı değildir — o halde tek bir modele kilitlenmemelisiniz.
DeepSeek, Google, Z.AI, Xiaomi, Meta ve daha fazlasından sohbet modelleri; 131K'dan bir milyon token'a uzanan bağlam pencereleriyle, hepsi tek arayüz ve tek kredi bakiyesi arkasında.
Modeller tek tek fiyatlandırılır, taban kredi oranının 0.3× ile 2× katı arasında, ve çarpan model kartının üzerinde yazılıdır. Günlük sahneler için ucuz modeller, önemli anlar için öncü modeller.
Özel muhakeme modelleri girift kurgular için yazmadan önce düşünür; hibrit modeller istek üzerine muhakeme eder; çok modlu modeller sohbete yüklediğiniz görüntüleri okuyabilir.
Ücretsiz model, bakiyenizden bağımsız olarak adil kullanım sınırlarıyla erişilebilir kalır — süresi dolan bir deneme değil, her sohbetin altındaki sağlam zemin.
Hazır olduğunuzda
Herhangi bir sohbette model seçiciyi açın, rakamlara göre sıralayın ve favorinizi bulun.