Pazarlama Değil, Gerçek Veri: AI Modellerini Aslında Nasıl Sıralıyoruz

Kasım'da Verdiğimiz Bir Söz

Çift yanıt karşılaştırması yazımızda, sizden küçük bir şey istedik: yan yana iki AI yanıtı gördüğünüzde, tercih ettiğinizi seçin.

Bu seçimlerin önemli olacağına söz verdik. Tercihlerinizin daha iyi modeller önermemize, routing'imizi optimize etmemize ve "gerçek kullanıcı tercihleriyle uyumlu özellikler oluşturmamıza" yardımcı olacağını söyledik.

Bugün, doğrudan bu veriler üzerine inşa edilen ilk özelliği yayınlıyoruz — ve nasıl çalıştığını size tam olarak açıklamak istiyoruz, çünkü şeffaflık tüm meselenin özüdür.

Yeni Model Seçici

Herhangi bir sohbette model dropdown'unu açın. Artık düz bir isim listesi olmadığını fark edeceksiniz. Her modelin artık iki görünür metriği var:

Kalite: siz ve diğer kullanıcılar gerçek A/B karşılaştırmalarında bu modeli ne sıklıkla tercih ettiniz
Hız: son birkaç yüz mesaja dayanarak gerçekte ne kadar hızlı yanıt veriyor

Hepsi bu. Pazarlama rozeti yok. "Editörün Seçimi" yok. Sizi yükseltmeye itmek için uydurulmuş "Premium" çıkartmaları yok. Sadece iki sayı, ikisi de gerçek kullanım verilerinden türetilmiş.

"Kalite" Nasıl Çalışır (Ve Neden Farklı)

Çoğu AI platformu modelleri üç yoldan biriyle sıralar:

Sağlayıcı PR'ı: "Anthropic yeni bir model çıkardı, biz de tanıtıyoruz."
İçsel his: "Ekibimiz bir saat denedi ve beğendi."
En çok kim öderse: "Ortağımız bu ay komisyon veriyor."

Bunların hiçbiri size bir modelin gerçekten roleplay için iyi olup olmadığını söylemez — burada olmanızın sebebi de budur.

İşte biz bunun yerine ne yapıyoruz:

Adım 1: Gerçek A/B düelloları

Çift yanıt karşılaştırmasını her gördüğünüzde ve birini diğerine tercih ettiğinizde, bunu kaydettik. Aynı prompt, aynı karakter, aynı bağlam — sadece model değişti. Sizin seçiminiz tek sinyal oldu.

Aylar sonra, platformdaki her aktif model arasında on binlerce baş başa karşılaşma birikmiş durumda.

Adım 2: Naif kazanma oranı değil, Wilson Score

İşte ince ama önemli bir detay. Bir model 4 galibiyet 1 mağlubiyete sahipse, naif kazanma oranı %80'dir. Harika gibi geliyor. Ama 5 örnek istatistiksel gürültüdür. 800 galibiyet ve 200 mağlubiyete sahip bir modelin de %80 kazanma oranı vardır ve doğal olarak ikincisine daha çok güvenmek gerekir.

Wilson Score Lower Bound kullanıyoruz — Reddit'in yorumları sıralarken kullandığı algoritmanın aynısı. Küçük örnek boyutlarını cezalandırır, dolayısıyla bir modelin sıralamada yükselmesi için hem yüksek tercih hem de yeterli veri gerekir.

İşte bu yüzden her modelin yanında küçük güven noktaları sırası göreceksiniz: ●●●●○ "bu konuda çok veriye sahibiz" anlamına gelir. ●●○○○ "sayıyı temkinli ele al" anlamına gelir. Belirsizliği gizlemiyoruz — size gösteriyoruz.

Adım 3: Ham sayıları asla söylemiyoruz

Burada bir gizlilik çizgisi çekiyoruz. Seçici kazanma oranını ve güven seviyesini gösteriyor, ancak asla mutlak sayıları göstermez. Bir model 1.200 kez veya 12.000 kez seçilmiş olabilir — her ikisi için de "●●●●●" göreceksiniz, çünkü kesin sayıları açığa çıkarmak kaç kullanıcımız olduğunu ve ne yaptıklarını sızdırırdı.

Bu kasıtlı bir tradeoff. Herkesin scrape edebileceği bir analytics dashboard'una dönüşmeden değerlendirmeye güvenmenizi istiyoruz.

"Hız" Nasıl Çalışır

Kalite tek bir sayıdır. Hız, sağlayıcıların iddia ettiği benchmarklardan değil, gerçek isteklerden ölçülmelidir.

Sunduğumuz her mesaj, o yanıt için gerçek time-to-first-token (TTFT) ve saniyedeki token içeren bir metadata blob'u taşır. Model başına en son ~50'sini agrege ediyoruz ve medyan (p50) gösteriyoruz — ortalama değil.

Neden medyan? Çünkü outlierlar olduğunda ortalamalar yalan söyler. Bir model normalde hızlıysa ama geçen hafta üç gece yavaş çalıştıysa, ortalama size modelin yavaş olduğunu söyleyecek. Medyan size tipik olarak ne deneyimleyeceğinizi söyler ve aslında önemsediğiniz şey budur.

Hız göstergesinin üzerine geldiğinizde p95'i de göreceksiniz — yani en kötü durum gecikmesini. Bazı modellerin gecikme dağılımları çok dardır, diğerlerinin uzun kuyrukları vardır. Şimdi her ikisini de görebilirsiniz.

Hız Çubuğu Neden Logaritmik Ölçek Kullanıyor

1 saniyelik bir yanıt, 5 saniyelik bir yanıttan çok daha hızlı hissettirir. 5 saniyelik bir yanıt, 6 saniyelik bir yanıt gibi hissettirir neredeyse. Gecikmenin insan algısı logaritmiktir, bu yüzden hız çubuğu [500ms, 20s] arasında logaritmik bir ölçeğe eşlenmiştir.

Bu, ilk token için 18 saniye süren bir reasoning modelinin (evet, bu gerçek veri) neredeyse boş bir hız çubuğu ile görünmesi anlamına gelir — 8 saniyelik bir modelin biraz daha kısa versiyonu olarak değil. Çünkü içsel hissinizde, bu iki deneyim tamamen farklıdır.

Bilerek Yapmadığımız Şeyler

Kaçındığımız şeyler konusunda spesifik olmak istiyoruz:

"Sizin için önerilenler" kara kutusu yok. Varsayılan sıralama sadece veridir: Wilson Score'a göre, azalan sırada. Pro modelleri yukarıya yüzer sadece Pro kullanıcıları onlara para ödediği için, biz manuel olarak yükselttiğimiz için değil. Pro içinde ve Free içinde sıralama tamamen hak edilmiştir.
Sahte "Yeni ve geliştirilmiş" rozetleri yok. Bir model NEW etiketini sadece son 14 gün içinde platforma eklenmişse alır. Sonra rozet otomatik düşer — hiçbir insan onu sabitleyemez.
Ortak güdümlü sıralama yok. Yerleştirme için hiçbir AI sağlayıcısından ödeme almıyoruz. OpenAI veya Anthropic yarın düellolarımızda en son sıraya düşen bir model çıkarsaydı, listenin en altında olurdu. (Ve dürüst olmak gerekirse, yine de yayınlardık ve verilerin konuşmasına izin verirdik.)
"En pahalı en iyidir" yok. En pahalı Pro modelimiz şu anda platformdaki en yüksek kaliteli model değildir her zaman. Bunu size gösteriyoruz. Saklamıyoruz.

"Değerlendirme" Bucket'ı

Bir model yepyeni olduğunda, anlamlı bir Wilson Score için yeterli A/B verisine sahip değildir. Üzerine %50 kazanma oranı yapıştırmak yanıltıcı olur.

Yani yeni modeller seçicinin üst kısmındaki Değerlendirme bucket'ına girer. Hızlarını gösterirler (hemen ölçebildiğimiz) ancak kalite sayısının olması gereken yerde "Veri toplanıyor" yazar. Yeterli düello biriktirdiklerinde, otomatik olarak ana sıralama listesine mezun olurlar.

Baktığınız değerlendirmenin istatistiksel olarak anlamlı olup olmadığını veya sadece bir placeholder olup olmadığını her zaman bileceksiniz.

Bu Neden Önemli

AI companion alanı, "en iyi modeller" hakkında çok konuşan ama size hiçbir zaman tek bir sayı göstermeyen platformlarla dolu. Bazıları daha ucuz modelleri premium fiyatlarla sunuyor. Bazıları sizi bu ay indirimli olan modele yönlendiriyor. Bazıları sadece tahmin ediyor.

Farklı bir varsayılan seçiyoruz: size gerçeği söylemek, matematiği göstermek, karar vermenize izin vermek.

Bir modelin iyi olduğunu söylediğimizde bize güvenmek zorunda değilsiniz. Çubuğa bakabilir, güven noktalarını görebilir, p95 için fareyi üzerine getirebilir ve kendi fikrinizi oluşturabilirsiniz. Verilerin yanlış olduğunu düşünüyorsanız, çift yanıt karşılaştırması hâlâ sohbetlerinizde çalışıyor — ve bir sonraki tercih oyunuz sayıyı hareket ettirecek.

Bir Hatırlatma: Hepsi Resmi API'lar

Bu da daha önce söylediğimiz bir şeyi tekrarlamak için iyi bir an: seçicideki her model resmi sağlayıcı API'sı üzerinden sunulmaktadır. Fine-tune edilmiş kopyalar yok. Quantize edilmiş yedekler yok. Üçüncü taraflardan "GPT-4 eşdeğeri" gizemli modeller yok.

Seçici "Claude Opus 4.6" diyorsa, Claude Opus 4.6 ile konuşuyorsunuz. "DeepSeek V3.2" diyorsa, DeepSeek V3.2 ile konuşuyorsunuz. Kalite skorları tam olarak modeller gerçek olduğu için anlamlıdır.

Sırada Ne Var

Seçici görünür kısımdır. Bu verilerle yapmak istediğimiz daha çok şey var:

Karaktere göre öneriler. Farklı modeller farklı karakter arketiplerinde mükemmeldir. Tercih verilerimiz "kullanıcılar bu tür karakter için X modelini tercih etme eğilimindedir" önerisini yapmamızı sağlamalıdır.
Kişiselleştirilmiş sıralamalar. Şu anda herkes aynı global sıralamayı görüyor. Sonunda sizin tercih ettiğiniz modeller, kendi geçmiş seçimlerinize göre üste çıkmalı.
Canlı model sağlık uyarıları. Bir sağlayıcının API'sının kötü bir günü varsa ve TTFT yükseliyorsa, seçici bunu bir saat içinde yansıtmalı, ertesi gün değil.

Ama tüm bunlar dürüst veri temeli gerektirir. Bugün yayınladığımız temel budur.

Bir sonraki sohbetinizde model seçiciyi açın ve bir göz atın. Çift yanıt karşılaştırmalarında oy verdiyseniz, parmak izleriniz gördüğünüz her sayıdadır.

Yeni Seçiciyi Dene →