असली डेटा, मार्केटिंग नहीं: हम AI मॉडल को वास्तव में कैसे रैंक करते हैं

नवंबर में किया गया एक वादा

दोहरे रिस्पॉन्स तुलना पर हमारी पोस्ट में, हमने आपसे एक छोटी सी बात कही थी: जब आप दो AI रिस्पॉन्स साथ-साथ देखें, तो जो आपको ज़्यादा पसंद हो उसे चुनें।

हमने वादा किया था कि वे चुनाव मायने रखेंगे। हमने कहा था कि आपकी पसंद हमें बेहतर मॉडल सुझाने, हमारे रूटिंग को ऑप्टिमाइज़ करने, और "वास्तविक उपयोगकर्ता पसंद के अनुरूप फ़ीचर बनाने" में मदद करेगी।

आज हम पहला फ़ीचर लॉन्च कर रहे हैं जो सीधे उस डेटा पर बना है — और हम आपको ठीक-ठीक बताना चाहते हैं कि यह कैसे काम करता है, क्योंकि पारदर्शिता ही पूरी बात है।

नया मॉडल पिकर

किसी भी चैट में मॉडल ड्रॉपडाउन खोलें। आप देखेंगे कि यह अब नामों की एक सपाट सूची नहीं है। हर मॉडल के पास अब दो दृश्य मेट्रिक्स हैं:

गुणवत्ता: वास्तविक A/B तुलनाओं में आपने और दूसरे उपयोगकर्ताओं ने इस मॉडल को कितनी बार पसंद किया
गति: यह वास्तव में कितनी तेज़ी से जवाब देता है, हाल के कुछ सौ संदेशों के आधार पर

बस इतना ही। कोई मार्केटिंग बैज नहीं। कोई "एडिटर का चुनाव" नहीं। आपको अपग्रेड के लिए धकेलने हेतु कोई मनगढ़ंत "प्रीमियम" स्टिकर नहीं। सिर्फ़ दो संख्याएँ, दोनों वास्तविक उपयोग डेटा से प्राप्त।

"गुणवत्ता" कैसे काम करती है (और यह अलग क्यों है)

ज़्यादातर AI प्लेटफ़ॉर्म तीन में से किसी एक तरीके से मॉडल को रैंक करते हैं:

वेंडर PR: "Anthropic ने नया मॉडल जारी किया, तो हम उसे प्रमोट करते हैं।"
आंतरिक भावना: "हमारी टीम ने इसे एक घंटे टेस्ट किया और पसंद आया।"
जो सबसे ज़्यादा पैसा देता है: "हमारा पार्टनर इस महीने किकबैक दे रहा है।"

इनमें से कोई भी आपको नहीं बताता कि कोई मॉडल वास्तव में रोलप्ले के लिए अच्छा है या नहीं — और आप यहाँ इसी के लिए हैं।

यहाँ हम इसके बजाय यह करते हैं:

चरण 1: असली A/B द्वंद्व

हर बार जब आपने दोहरी रिस्पॉन्स तुलना देखी और एक चुना, हमने वह दर्ज किया। वही प्रॉम्प्ट, वही चरित्र, वही संदर्भ — सिर्फ़ मॉडल बदलता था। आपका चुनाव ही एकमात्र संकेत था।

महीनों के बाद, हमारे पास प्लेटफ़ॉर्म के हर सक्रिय मॉडल के बीच हज़ारों आमने-सामने मुक़ाबलों का डेटा है।

चरण 2: Wilson Score, सरल जीत-दर नहीं

यहाँ एक सूक्ष्म लेकिन महत्वपूर्ण विवरण है। यदि किसी मॉडल की 4 जीत और 1 हार हैं, तो उसकी सरल जीत-दर 80% है। शानदार लगता है। लेकिन 5 नमूने सांख्यिकीय शोर हैं। 800 जीत और 200 हार वाले मॉडल की जीत-दर भी 80% है, और स्पष्ट रूप से दूसरे पर अधिक भरोसा करना चाहिए।

हम Wilson Score Lower Bound का उपयोग करते हैं — वही एल्गोरिदम जो Reddit टिप्पणियों को रैंक करने के लिए उपयोग करता है। यह छोटे नमूने आकारों को दंडित करता है, इसलिए किसी मॉडल को रैंकिंग में ऊपर चढ़ने के लिए उच्च पसंद और पर्याप्त डेटा दोनों की ज़रूरत होती है।

इसीलिए आप हर मॉडल के बगल में छोटे विश्वास बिंदुओं की एक पंक्ति देखेंगे: ●●●●○ का मतलब है "इस पर हमारे पास बहुत डेटा है।" ●●○○○ का मतलब है "इस संख्या को सावधानी से लें।" हम अनिश्चितता को छिपा नहीं रहे — हम आपको दिखा रहे हैं।

चरण 3: हम कभी कच्चे आँकड़े नहीं बताते

यहाँ हम गोपनीयता की एक रेखा खींचते हैं। पिकर जीत-दर और विश्वास स्तर दिखाता है, लेकिन कभी भी निरपेक्ष गिनती नहीं। एक मॉडल को 1,200 बार चुना गया हो सकता है या 12,000 बार — आप दोनों के लिए "●●●●●" देखेंगे, क्योंकि सटीक संख्याओं को उजागर करने से यह पता चलता कि हमारे कितने उपयोगकर्ता हैं और वे क्या कर रहे हैं।

यह एक जानबूझकर समझौता है। हम चाहते हैं कि आप रेटिंग पर भरोसा करें, बिना हमें ऐसे एनालिटिक्स डैशबोर्ड में बदले जिसे कोई भी स्क्रैप कर सके।

"गति" कैसे काम करती है

गुणवत्ता एक संख्या है। गति को असली अनुरोधों से मापना पड़ता है, वेंडर के दावों वाले बेंचमार्क से नहीं।

हम जो भी संदेश देते हैं उसमें एक मेटाडेटा ब्लॉब होता है जिसमें उस रिस्पॉन्स के लिए वास्तविक टाइम-टू-फ़र्स्ट-टोकन (TTFT) और टोकन प्रति सेकंड होते हैं। हम प्रति मॉडल हाल के ~50 को एकत्रित करते हैं और मध्यिका (p50) दिखाते हैं — औसत नहीं।

मध्यिका क्यों? क्योंकि जब आउटलायर होते हैं तो औसत झूठ बोलते हैं। यदि कोई मॉडल आम तौर पर तेज़ है लेकिन पिछले हफ़्ते तीन रातें धीमी थीं, तो औसत आपको बताएगा कि मॉडल धीमा है। मध्यिका आपको बताती है कि आप आम तौर पर क्या अनुभव करेंगे, और यही असली बात है।

यदि आप गति संकेतक पर होवर करते हैं, तो आप p95 भी देखेंगे — यानी सबसे खराब स्थिति की लेटेंसी। कुछ मॉडलों की लेटेंसी वितरण बहुत संकीर्ण होती है, अन्य की लंबी पूँछ होती है। अब आप दोनों देख सकते हैं।

स्पीड बार लॉगरिदमिक स्केल का उपयोग क्यों करता है

1 सेकंड की रिस्पॉन्स 5 सेकंड की रिस्पॉन्स की तुलना में बहुत तेज़ महसूस होती है। 5 सेकंड की रिस्पॉन्स 6 सेकंड की रिस्पॉन्स के लगभग समान महसूस होती है। लेटेंसी की मानवीय धारणा लॉगरिदमिक है, इसलिए स्पीड बार [500ms, 20s] के बीच लॉगरिदमिक स्केल पर मैप किया गया है।

इसका मतलब है कि एक रीज़निंग मॉडल जो पहले टोकन के लिए 18 सेकंड लेता है (हाँ, यह असली डेटा है) लगभग खाली स्पीड बार के साथ दिखता है — 8-सेकंड के मॉडल का थोड़ा छोटा संस्करण नहीं। क्योंकि आपकी आंतरिक भावना में, ये दोनों अनुभव पूरी तरह से अलग हैं।

जो हम जानबूझकर नहीं करते

हम स्पष्ट होना चाहते हैं कि हम क्या टालते हैं:

कोई "आपके लिए अनुशंसित" ब्लैक बॉक्स नहीं। डिफ़ॉल्ट सॉर्ट सिर्फ़ डेटा है: Wilson Score के अनुसार, अवरोही। Pro मॉडल शीर्ष पर तैरते हैं सिर्फ़ इसलिए क्योंकि Pro उपयोगकर्ताओं ने उनके लिए भुगतान किया, इसलिए नहीं कि हमने उन्हें मैन्युअल रूप से बूस्ट किया। Pro और Free के भीतर, क्रम विशुद्ध रूप से अर्जित है।
कोई नकली "नया और बेहतर" बैज नहीं। एक मॉडल को NEW टैग केवल तभी मिलता है जब उसे पिछले 14 दिनों में प्लेटफ़ॉर्म पर जोड़ा गया हो। उसके बाद बैज स्वचालित रूप से गिर जाता है — कोई भी इंसान इसे पिन रखकर नहीं रख सकता।
पार्टनर-संचालित रैंकिंग नहीं। हम किसी भी AI प्रोवाइडर से प्लेसमेंट के लिए भुगतान नहीं लेते। यदि OpenAI या Anthropic कल कोई ऐसा मॉडल जारी करते जो हमारे द्वंद्व में अंतिम स्थान पर आता, तो वह सूची के नीचे होता। (और सच कहें तो, हम उसे फिर भी जारी करते और डेटा को बोलने देते।)
"सबसे महंगा सबसे अच्छा है" यह नहीं। हमारा सबसे महंगा Pro मॉडल अभी प्लेटफ़ॉर्म पर हमेशा सबसे उच्च गुणवत्ता वाला मॉडल नहीं है। हम आपको यह दिखाते हैं। हम छिपाते नहीं।

"मूल्यांकन में" बकेट

जब कोई मॉडल बिल्कुल नया होता है, तो उसके पास सार्थक Wilson Score के लिए पर्याप्त A/B डेटा नहीं होता। उस पर 50% जीत-दर चिपकाना भ्रामक होगा।

इसलिए नए मॉडल पिकर के शीर्ष पर मूल्यांकन में बकेट में जाते हैं। वे अपनी गति दिखाते हैं (जिसे हम तुरंत माप सकते हैं) लेकिन गुणवत्ता संख्या के स्थान पर "डेटा संग्रह जारी" कहते हैं। एक बार पर्याप्त द्वंद्व जमा हो जाने पर, वे स्वचालित रूप से मुख्य रैंकिंग सूची में स्नातक हो जाते हैं।

आप हमेशा जानेंगे कि आप जिस रेटिंग को देख रहे हैं वह सांख्यिकीय रूप से सार्थक है या सिर्फ़ एक प्लेसहोल्डर।

यह क्यों मायने रखता है

AI साथी क्षेत्र उन प्लेटफ़ॉर्मों से भरा है जो "सर्वश्रेष्ठ मॉडलों" के बारे में बहुत बड़ी-बड़ी बातें करते हैं लेकिन कभी एक भी संख्या नहीं दिखाते। कुछ प्रीमियम कीमतों के साथ सस्ते मॉडल बेच रहे हैं। कुछ आपको उस मॉडल पर रूट करते हैं जो इस महीने ऑफ़र पर है। कुछ बस अंदाज़ा लगाते हैं।

हम एक अलग डिफ़ॉल्ट चुनते हैं: आपको सच बताना, गणित दिखाना, आपको निर्णय लेने देना।

जब हम कहते हैं कि कोई मॉडल अच्छा है तो आपको हम पर भरोसा करने की ज़रूरत नहीं। आप बार देख सकते हैं, विश्वास बिंदु देख सकते हैं, p95 के लिए होवर कर सकते हैं, और अपनी राय बना सकते हैं। यदि आपको लगता है कि डेटा गलत है, तो दोहरी रिस्पॉन्स तुलना अभी भी आपकी चैट में चल रही है — और आपका अगला पसंद वोट संख्या को हिला देगा।

एक अनुस्मारक: सभी आधिकारिक API

यह पहले कही गई एक बात को दोहराने का भी अच्छा क्षण है: पिकर में हर मॉडल आधिकारिक प्रोवाइडर API के माध्यम से परोसा जाता है। कोई फ़ाइन-ट्यून्ड नकली नहीं। कोई क्वांटाइज़्ड स्टैंड-इन नहीं। तीसरे पक्षों के "GPT-4 के बराबर" कोई रहस्यमय मॉडल नहीं।

यदि पिकर "Claude Opus 4.6" कहता है, तो आप Claude Opus 4.6 से बात कर रहे हैं। यदि "DeepSeek V3.2" कहता है, तो आप DeepSeek V3.2 से बात कर रहे हैं। गुणवत्ता स्कोर सार्थक हैं ठीक इसलिए क्योंकि मॉडल असली हैं।

आगे क्या

पिकर दृश्य भाग है। हम इस डेटा के साथ और भी कुछ करना चाहते हैं:

चरित्र-विशिष्ट सिफ़ारिशें। अलग-अलग मॉडल अलग-अलग चरित्र प्रकारों में उत्कृष्ट हैं। हमारा पसंद डेटा हमें यह सुझाने की अनुमति देना चाहिए कि "उपयोगकर्ता इस प्रकार के चरित्र के लिए मॉडल X को पसंद करते हैं।"
व्यक्तिगत रैंकिंग। अभी सभी एक ही वैश्विक रैंकिंग देखते हैं। अंततः आपके पसंदीदा मॉडल आपके अपने पिछले विकल्पों के आधार पर शीर्ष पर तैरने चाहिए।
लाइव मॉडल हेल्थ अलर्ट। यदि किसी प्रोवाइडर के API का बुरा दिन है और TTFT बढ़ जाता है, तो पिकर को इसे एक घंटे के भीतर प्रतिबिंबित करना चाहिए, अगले दिन नहीं।

लेकिन इन सबके लिए ईमानदार डेटा की एक नींव चाहिए। वही नींव जो हम आज लॉन्च कर रहे हैं।

अपनी अगली चैट में मॉडल पिकर खोलें और एक नज़र डालें। यदि आपने दोहरी रिस्पॉन्स तुलनाओं में वोट दिया है, तो आप जो भी संख्या देखते हैं उस पर आपकी उँगलियों के निशान हैं।

नया पिकर आज़माएँ →