ब्लाइंड A/B विन रेट
जब यूज़र दो जवाबों की तुलना यह जाने बिना करते हैं कि किसे किस मॉडल ने लिखा, तो हम उनकी पसंद दर्ज करते हैं। विन रेट इन्हीं ब्लाइंड मुक़ाबलों से आते हैं, Wilson कॉन्फ़िडेंस इंटरवल से स्कोर किए हुए।
आठ वेंडरों के मॉडल, हर एक के साथ ब्लाइंड A/B टेस्ट के क्वालिटी स्कोर, यूज़र लाइक रेट और लाइव स्पीड आँकड़े — सीधे पिकर में। कभी भी बदलें, बातचीत के बीच में भी।
DeepSeek V4 Flash
DeepSeek
GLM 5
Z.AI
Llama 3.1 8B
Meta
हमारा रुख़
हर प्लेटफ़ॉर्म कहता है कि उसका AI शानदार है। हम विन रेट दिखाना और मॉडलों को ख़ुद अपनी वकालत करने देना बेहतर समझते हैं।
— Reverie टीम
डिफ़ॉल्ट रूप से पारदर्शी
चार मेट्रिक, Reverie पर असली बातचीतों से मापे गए — किसी प्रेस रिलीज़ से उठाए वेंडर बेंचमार्क नहीं।
जब यूज़र दो जवाबों की तुलना यह जाने बिना करते हैं कि किसे किस मॉडल ने लिखा, तो हम उनकी पसंद दर्ज करते हैं। विन रेट इन्हीं ब्लाइंड मुक़ाबलों से आते हैं, Wilson कॉन्फ़िडेंस इंटरवल से स्कोर किए हुए।
असली जवाबों पर हर थम्स-अप और थम्स-डाउन हर मॉडल के लाइक रेट में जुड़ता है, ताकि दिख सके कि असली रोलप्लेयर्स को हर मॉडल कैसा लगता है।
मॉडल जवाब देना शुरू करने में कितना समय लेता है — औसत, मीडियन और p95, हमारे अपने इन्फ़्रास्ट्रक्चर पर लाइव ट्रैफ़िक से मापा हुआ।
जवाब बहने लगे तो जनरेशन की असली रफ़्तार। तेज़ मॉडल लंबे सीन को चलाए रखते हैं — और आप ठीक-ठीक देख सकते हैं कि वे कौन-से हैं।
हर क्वालिटी आँकड़े के साथ सैंपल साइज़ पर आधारित 1–5 स्टार कॉन्फ़िडेंस लेवल होता है, ताकि भरोसा करने से पहले पता हो कि संख्या कितनी पक्की है।
नए मॉडल 'evaluating' स्थिति में शुरू होते हैं — हम उन्हें बिना क्वालिटी दावों के दिखाते हैं, जब तक इतने ब्लाइंड मुक़ाबले जमा न हो जाएँ कि कुछ ईमानदारी से कहा जा सके।
मौजूदा लाइनअप
हमारी मॉडल रजिस्ट्री से लाइव पढ़ी जाती है — लाइनअप बदलता है तो यह टेबल भी साथ बदल जाती है।
| मॉडल | कॉन्टेक्स्ट | रीज़निंग | लागत |
|---|---|---|---|
DeepSeek V3.2बेसिक DeepSeek | 164K | — | 0.5× क्रेडिट |
DeepSeek V4 Flashबेसिक DeepSeek | 164K | वैकल्पिक | 0.3× क्रेडिट |
DeepSeek V4 Proबेसिक DeepSeek | 164K | वैकल्पिक | 0.7× क्रेडिट |
DeepSeek R1बेसिक DeepSeek | 164K | हमेशा चालू | 1× क्रेडिट |
MiMo V2 Flashबेसिक Xiaomi | 262K | वैकल्पिक | 0.3× क्रेडिट |
MiMo V2.5बेसिक Xiaomi | 262K | वैकल्पिक | 0.3× क्रेडिट |
GLM 4.5 Airबेसिक Z.AI | 131K | वैकल्पिक | 0.5× क्रेडिट |
GLM 4.7बेसिक Z.AI | 200K | वैकल्पिक | 1× क्रेडिट |
GLM 5एडवांस्ड Z.AI | 200K | वैकल्पिक | 1.3× क्रेडिट |
Gemini 3 Flash Previewएडवांस्ड | 1M | — | 1.2× क्रेडिट |
Llama 3.1 8Bबेसिक Meta | 131K | — | मुफ़्त |
क्रेडिट मल्टीप्लायर बेसलाइन क्रेडिट दर के सापेक्ष हैं। इमेज और वीडियो जनरेशन मॉडल चैट में अलग से उपलब्ध हैं।
आपको क्या मिलता है
यहाँ मॉडल बदलना सेटिंग्स मेन्यू का छिपा ईस्टर एग नहीं है। प्रोडक्ट इसी तरह इस्तेमाल के लिए बना है।
मैसेजों के बीच मॉडल बदलें, सूत्र खोए बिना। निर्णायक सीन के लिए तेज़ दिमाग़ वाला मॉडल लाएं, हल्की-फुल्की बातों के लिए वापस लौट जाएं।
जवाब पसंद नहीं आया? उसे किसी दूसरे मॉडल से दोबारा बनवाएं और जो वर्शन बेहतर पढ़ा जाए वही रखें। ये चुनाव विन-रेट आँकड़ों में जुड़ते हैं।
क्रिएटर हर किरदार के लिए पसंदीदा मॉडल सेट कर सकते हैं, ताकि वह उसी इंजन से बोले जिसके लिए लिखा गया। आपका अपना चुनाव हमेशा उस पर भारी पड़ता है।
एक सक्षम मुफ़्त मॉडल शून्य क्रेडिट पर मेन्यू में रहता है, फ़ेयर-यूज़ सीमाओं के साथ — यानी क्रेडिट ख़त्म होने का मतलब बातचीत ख़त्म होना कभी नहीं।
हर मॉडल अपना क्रेडिट मल्टीप्लायर दिखाता है — 0.3× बजट मॉडलों से 2× फ़्रंटियर मॉडलों तक — ताकि लागत आपका चुनाव हो, बिल का झटका नहीं।
पेचीदा प्लॉट के लिए शुद्ध रीज़निंग मॉडल, और हाइब्रिड जो कहने पर ही सोचते हैं। सीन के हिसाब का दिमाग़ चुनें।
आम सवाल
ज़्यादातर प्लेटफ़ॉर्म एक मॉडल चुनते हैं, उस पर अपना ठप्पा लगाते हैं और बताते हैं कि वह कमाल है। Reverie कई मॉडल चलाता है और छापता है कि वे आपस में असल में कैसा प्रदर्शन करते हैं — प्रोडक्ट के अंदर, वहीं जहाँ आप चुनते हैं।
क्वालिटी स्कोर यूज़रों के दो गुमनाम जवाबों में से चुनने से आते हैं। तुलना के दौरान न लेबल दिखता है न वेंडर, इसलिए आँकड़े लेखन मापते हैं, ब्रांडिंग नहीं।
कुल स्कोर से आगे, पिकर सीधे मुक़ाबलों का डेटा दिखाता है — कौन-सा मॉडल किसे हराता है, और कितने से, उन तुलनाओं में जो यूज़रों ने सच में कीं।
चालीस तुलनाओं का स्कोर चार हज़ार तुलनाओं का स्कोर नहीं होता। हर मेट्रिक के साथ सैंपल साइज़ से निकला 1–5 स्टार कॉन्फ़िडेंस लेवल होता है, संख्या के बग़ल में ही।
टाइम-टू-फ़र्स्ट-टोकन और टोकन-प्रति-सेकंड प्रोडक्शन बातचीतों से मापे जाते हैं — औसत, मीडियन और p95 — किसी वेंडर डेटाशीट से उद्धृत नहीं।
अलग-अलग सीन को अलग-अलग दिमाग़ चाहिए। धीमी आँच का लंबा रोमांस, रणनीति की जंगी बैठक और झटपट कॉमिक नोक-झोंक का आदर्श मॉडल एक नहीं होता — तो आपको भी एक से बाँधा नहीं जाना चाहिए।
DeepSeek, Google, Z.AI, Xiaomi, Meta और अन्य के चैट मॉडल, 131K से दस लाख टोकन तक की कॉन्टेक्स्ट विंडो के साथ, सब एक इंटरफ़ेस और एक क्रेडिट बैलेंस के पीछे।
मॉडलों की क़ीमत अलग-अलग तय होती है, बेसलाइन क्रेडिट दर के 0.3× से 2× तक, और मल्टीप्लायर मॉडल कार्ड पर छपा रहता है। रोज़मर्रा के सीन के लिए सस्ते मॉडल, अहम मौक़ों के लिए फ़्रंटियर मॉडल।
पेचीदा प्लॉट के लिए समर्पित रीज़निंग मॉडल लिखने से पहले सोचते हैं; हाइब्रिड मॉडल माँगने पर सोचते हैं; मल्टीमॉडल मॉडल चैट में अपलोड की गई आपकी तस्वीरें पढ़ सकते हैं।
मुफ़्त मॉडल आपके बैलेंस की परवाह किए बिना उपलब्ध रहता है, फ़ेयर-यूज़ सीमाओं के साथ — हर बातचीत के नीचे एक मज़बूत फ़र्श, कोई एक्सपायर होने वाला ट्रायल नहीं।
जब तैयार हों
किसी भी चैट में मॉडल पिकर खोलें, आँकड़ों से छाँटें और अपना पसंदीदा ढूँढें।