Data Nyata, Bukan Marketing: Bagaimana Kami Sebenarnya Memeringkat Model AI

Janji yang Kami Buat di November

Di postingan kami tentang perbandingan respons ganda, kami meminta Anda melakukan sesuatu yang kecil: ketika Anda melihat dua respons AI berdampingan, pilih yang Anda sukai.

Kami berjanji bahwa pilihan-pilihan itu akan berarti. Kami mengatakan preferensi Anda akan membantu kami merekomendasikan model yang lebih baik, mengoptimalkan routing kami, dan "membangun fitur yang selaras dengan preferensi pengguna yang sebenarnya."

Hari ini kami merilis fitur pertama yang dibangun langsung di atas data tersebut — dan kami ingin menjelaskan secara persis bagaimana ia bekerja, karena transparansi adalah inti dari semuanya.

Pemilih Model Baru

Buka dropdown model di chat mana pun. Anda akan melihat itu bukan lagi daftar nama yang datar. Setiap model sekarang memiliki dua metrik yang terlihat:

Kualitas: seberapa sering Anda dan pengguna lain memilih model ini dalam perbandingan A/B nyata
Kecepatan: seberapa cepat ia benar-benar merespons, berdasarkan beberapa ratus pesan terakhir

Itu saja. Tidak ada lencana marketing. Tidak ada "Editor's Choice". Tidak ada stiker "Premium" yang dibuat-buat untuk mendorong Anda upgrade. Hanya dua angka, keduanya berasal dari data penggunaan nyata.

Bagaimana "Kualitas" Bekerja (Dan Mengapa Berbeda)

Kebanyakan platform AI memeringkat model dengan salah satu dari tiga cara:

PR vendor: "Anthropic merilis model baru, jadi kami promosikan."
Feeling internal: "Tim kami coba selama satu jam dan menyukainya."
Siapa yang bayar paling banyak: "Mitra kami memberi komisi bulan ini."

Tidak ada satu pun yang memberi tahu Anda apakah sebuah model benar-benar bagus untuk roleplay — yang merupakan alasan Anda di sini.

Inilah yang kami lakukan sebagai gantinya:

Langkah 1: Duel A/B Nyata

Setiap kali Anda melihat perbandingan respons ganda dan memilih satu di atas yang lain, kami mencatatnya. Prompt yang sama, karakter yang sama, konteks yang sama — hanya modelnya yang berubah. Pilihan Anda adalah satu-satunya sinyal.

Setelah berbulan-bulan, kami memiliki puluhan ribu pertarungan langsung di setiap model aktif di platform.

Langkah 2: Wilson Score, Bukan Win Rate Naif

Ini detail yang halus tapi penting. Jika sebuah model memiliki 4 kemenangan dan 1 kekalahan, win rate naifnya adalah 80%. Terdengar bagus. Tapi 5 sampel adalah noise statistik. Model dengan 800 kemenangan dan 200 kekalahan juga memiliki win rate 80%, dan jelas kita harus lebih percaya yang kedua.

Kami menggunakan Wilson Score Lower Bound — algoritma yang sama yang digunakan Reddit untuk meranking komentar. Ia menghukum ukuran sampel kecil, jadi sebuah model membutuhkan baik preferensi tinggi maupun cukup data untuk naik di peringkat.

Inilah mengapa Anda akan melihat sebaris titik kepercayaan kecil di sebelah setiap model: ●●●●○ berarti "kami memiliki banyak data tentang ini." ●●○○○ berarti "perlakukan angka dengan hati-hati." Kami tidak menyembunyikan ketidakpastian — kami menunjukkannya kepada Anda.

Langkah 3: Kami Tidak Pernah Memberi Tahu Angka Mentahnya

Di sini kami menarik garis privasi. Pemilih menampilkan win rate dan tingkat kepercayaan, tapi tidak pernah jumlah absolutnya. Sebuah model mungkin telah dipilih 1.200 kali atau 12.000 kali — Anda akan melihat "●●●●●" untuk keduanya, karena mengekspos jumlah pasti akan membocorkan berapa banyak pengguna kami dan apa yang mereka lakukan.

Ini adalah trade-off yang disengaja. Kami ingin Anda mempercayai penilaian tanpa kami berubah menjadi dashboard analitik yang bisa di-scrape siapa saja.

Bagaimana "Kecepatan" Bekerja

Kualitas adalah satu angka. Kecepatan harus diukur dari permintaan nyata, bukan dari benchmark yang diklaim vendor.

Setiap pesan yang kami layani membawa blob metadata dengan time-to-first-token (TTFT) aktual dan token per detik untuk respons itu. Kami mengagregasi ~50 terbaru per model dan menampilkan median (p50) — bukan rata-rata.

Mengapa median? Karena rata-rata berbohong ketika ada outlier. Jika sebuah model biasanya cepat tapi mengalami tiga malam lambat minggu lalu, rata-rata akan memberi tahu Anda model itu lambat. Median memberi tahu Anda apa yang akan Anda biasanya alami, dan itulah yang sebenarnya Anda pedulikan.

Jika Anda hover di indikator kecepatan, Anda juga akan melihat p95 — latensi kasus terburuk. Beberapa model memiliki distribusi latensi yang sangat ketat, yang lain memiliki ekor panjang. Sekarang Anda bisa melihat keduanya.

Mengapa Bilah Kecepatan Menggunakan Skala Logaritmik

Respons 1 detik terasa jauh lebih cepat daripada respons 5 detik. Respons 5 detik terasa hampir sama dengan respons 6 detik. Persepsi manusia tentang latensi bersifat logaritmik, jadi bilah kecepatan dipetakan pada skala logaritmik antara [500ms, 20s].

Ini berarti model reasoning yang membutuhkan 18 detik untuk token pertama (ya, ini data nyata) muncul dengan bilah kecepatan yang praktis kosong — bukan sebagai versi yang sedikit lebih pendek dari model 8 detik. Karena dalam perasaan Anda, kedua pengalaman itu sama sekali berbeda.

Apa yang Tidak Kami Lakukan dengan Sengaja

Kami ingin spesifik tentang hal-hal yang kami hindari:

Tidak ada kotak hitam "Direkomendasikan untuk Anda". Pengurutan default hanyalah data: berdasarkan Wilson Score, menurun. Model Pro mengapung ke atas hanya karena pengguna Pro membayar untuk mereka, bukan karena kami secara manual mendorongnya. Di dalam Pro dan di dalam Free, urutannya murni layak.
Tidak ada lencana "Baru dan Lebih Baik" palsu. Sebuah model mendapat tag NEW hanya jika ditambahkan ke platform dalam 14 hari terakhir. Setelah itu lencana otomatis jatuh — tidak ada manusia yang bisa menahannya tetap disematkan.
Tidak ada peringkat yang didorong oleh mitra. Kami tidak menerima pembayaran dari penyedia AI mana pun untuk penempatan. Jika OpenAI atau Anthropic merilis besok sebuah model yang berada di urutan terakhir di duel kami, ia akan berada di bawah daftar. (Dan jujurnya, kami akan tetap merilisnya dan membiarkan data berbicara.)
Tidak ada "yang termahal adalah yang terbaik". Model Pro kami yang termahal saat ini tidak selalu model dengan kualitas tertinggi di platform. Kami menunjukkan itu kepada Anda. Kami tidak menyembunyikannya.

Bucket "Mengevaluasi"

Ketika sebuah model benar-benar baru, ia tidak memiliki cukup data A/B untuk Wilson Score yang bermakna. Menempelkan win rate 50% padanya akan menyesatkan.

Jadi model baru masuk ke bucket Mengevaluasi di bagian atas pemilih. Mereka menampilkan kecepatan mereka (yang bisa kami ukur segera) tapi mengatakan "Mengumpulkan data" di tempat angka kualitas. Setelah mereka mengumpulkan cukup duel, mereka secara otomatis lulus ke daftar peringkat utama.

Anda akan selalu tahu apakah penilaian yang Anda lihat secara statistik bermakna atau hanya placeholder.

Mengapa Ini Penting

Ruang AI companion penuh dengan platform yang banyak bicara tentang "model terbaik" tanpa pernah menunjukkan satu angka pun kepada Anda. Beberapa menjual model yang lebih murah dengan harga premium. Beberapa mengarahkan Anda ke model yang sedang diskon bulan ini. Beberapa hanya menebak.

Kami memilih default yang berbeda: memberi tahu Anda kebenaran, menunjukkan matematikanya, dan membiarkan Anda memutuskan.

Anda tidak perlu mempercayai kami ketika kami mengatakan sebuah model bagus. Anda bisa melihat bilahnya, melihat titik kepercayaan, hover untuk p95, dan membuat opini sendiri. Jika Anda pikir datanya salah, perbandingan respons ganda masih berjalan di chat Anda — dan suara preferensi Anda berikutnya akan menggerakkan angkanya.

Pengingat: Semua API Resmi

Ini juga saat yang baik untuk mengulangi sesuatu yang sudah kami katakan: setiap model di pemilih dilayani melalui API resmi penyedia. Tidak ada knock-off yang di-fine-tune. Tidak ada pengganti yang dikuantisasi. Tidak ada model misterius "setara GPT-4" dari pihak ketiga.

Jika pemilih mengatakan "Claude Opus 4.6", Anda berbicara dengan Claude Opus 4.6. Jika mengatakan "DeepSeek V3.2", Anda berbicara dengan DeepSeek V3.2. Skor kualitas bermakna justru karena modelnya nyata.

Apa Selanjutnya

Pemilih adalah bagian yang terlihat. Ada lebih banyak yang ingin kami lakukan dengan data ini:

Rekomendasi per karakter. Model yang berbeda unggul dalam arketipe karakter yang berbeda. Data preferensi kami seharusnya memungkinkan kami menyarankan "pengguna cenderung lebih menyukai model X untuk jenis karakter ini."
Peringkat yang dipersonalisasi. Saat ini semua orang melihat peringkat global yang sama. Akhirnya model favorit Anda harus mengapung ke atas, berdasarkan pilihan Anda sendiri di masa lalu.
Peringatan kesehatan model langsung. Jika API penyedia mengalami hari yang buruk dan TTFT melonjak, pemilih harus mencerminkan itu dalam waktu satu jam, bukan keesokan harinya.

Tapi semua itu membutuhkan fondasi data yang jujur. Fondasi itulah yang kami rilis hari ini.

Buka pemilih model di chat berikutnya dan lihatlah. Jika Anda telah memilih dalam perbandingan respons ganda, sidik jari Anda ada di setiap angka yang Anda lihat.

Coba Pemilih Baru →