نسبة الفوز في اختبارات A/B العمياء
حين يقارن المستخدمون ردين دون معرفة أي نموذج كتب أيهما، نسجّل الاختيار. تأتي نسب الفوز من تلك المواجهات العمياء، محسوبة بفترات ثقة ويلسون.
نماذج من ثمانية مزودين، لكل منها درجات جودة من اختبارات A/B عمياء، ونسب إعجاب المستخدمين، وإحصاءات سرعة حية — مباشرة في أداة الاختيار. بدّل متى شئت، حتى في منتصف المحادثة.
DeepSeek V4 Flash
DeepSeek
GLM 5
Z.AI
Llama 3.1 8B
Meta
موقفنا
كل منصة تقول إن ذكاءها الاصطناعي رائع. نحن نفضل أن نريك نسب الفوز وندع النماذج تدافع عن نفسها بنفسها.
— فريق Reverie
شفافية افتراضية
أربعة مقاييس، تُقاس من محادثات حقيقية على Reverie — لا معايير مزودين منسوخة من بيان صحفي.
حين يقارن المستخدمون ردين دون معرفة أي نموذج كتب أيهما، نسجّل الاختيار. تأتي نسب الفوز من تلك المواجهات العمياء، محسوبة بفترات ثقة ويلسون.
كل إعجاب وعدم إعجاب على الردود الحقيقية يصب في نسبة إعجاب لكل نموذج، لترى كيف يقع كل نموذج لدى لاعبي الأدوار الفعليين.
كم يمضي قبل أن يبدأ النموذج بالإجابة — المتوسط والوسيط وp95، مقاسة من حركة حية على بنيتنا التحتية الخاصة.
سرعة التوليد الصِّرفة بعد أن يبدأ الرد بالتدفق. النماذج السريعة تُبقي المشاهد الطويلة متحركة — وترى بدقة أيها كذلك.
كل إحصائية جودة تحمل مستوى ثقة من نجمة إلى خمس نجوم بحسب حجم العينة، فتعرف مدى رسوخ الرقم قبل أن تثق به.
تبدأ النماذج الجديدة في حالة «قيد التقييم» — نعرضها دون أي ادعاءات جودة حتى تتراكم مقارنات عمياء كافية لقول شيء صادق.
التشكيلة الحالية
تُقرأ مباشرة من سجل نماذجنا — حين تتغير التشكيلة، يتغير هذا الجدول معها.
| النموذج | السياق | الاستدلال | التكلفة |
|---|---|---|---|
DeepSeek V3.2أساسي DeepSeek | 164K | — | 0.5× رصيد |
DeepSeek V4 Flashأساسي DeepSeek | 164K | اختياري | 0.3× رصيد |
DeepSeek V4 Proأساسي DeepSeek | 164K | اختياري | 0.7× رصيد |
DeepSeek R1أساسي DeepSeek | 164K | مفعّل دائمًا | 1× رصيد |
MiMo V2 Flashأساسي Xiaomi | 262K | اختياري | 0.3× رصيد |
MiMo V2.5أساسي Xiaomi | 262K | اختياري | 0.3× رصيد |
GLM 4.5 Airأساسي Z.AI | 131K | اختياري | 0.5× رصيد |
GLM 4.7أساسي Z.AI | 200K | اختياري | 1× رصيد |
GLM 5متقدم Z.AI | 200K | اختياري | 1.3× رصيد |
Gemini 3 Flash Previewمتقدم | 1M | — | 1.2× رصيد |
Llama 3.1 8Bأساسي Meta | 131K | — | مجاني |
مضاعفات الرصيد نسبية إلى سعر الرصيد الأساسي. نماذج توليد الصور والفيديو متاحة على حدة في الدردشة.
ما الذي تحصل عليه
تبديل النماذج هنا ليس خدعة مخبأة في قائمة الإعدادات، بل هو الطريقة التي صُمم المنتج ليُستخدم بها.
غيّر النماذج بين الرسائل دون أن تفقد الخيط. استدعِ نموذجًا أذكى للمشهد المفصلي، وعد إلى الأبسط للحديث العابر.
لم يعجبك الرد؟ أعد توليده بنموذج مختلف واحتفظ بالنسخة الأفضل قراءة. هذه الاختيارات هي ما يغذي إحصاءات نسب الفوز.
يستطيع المبدعون تعيين نموذج مفضل لكل شخصية، فتتحدث بالمحرك الذي كُتبت له. واختيارك الشخصي يتقدم عليه دائمًا.
يبقى نموذج مجاني قدير في القائمة بصفر رصيد، مع حدود استخدام عادل — فنفاد الرصيد لا يعني أبدًا نفاد الحديث.
يعرض كل نموذج مضاعف رصيده — من نماذج اقتصادية بـ 0.3× إلى نماذج طليعية بـ 2× — فتكون التكلفة قرارًا تتخذه، لا مفاجأة في الفاتورة.
نماذج استدلال خالصة للحبكات المعقدة، وأخرى هجينة لا تفكر إلا حين تطلب. اختر العقل الذي يناسب المشهد.
أسئلة شائعة
معظم المنصات تختار نموذجًا واحدًا، وتضع عليه علامتها، وتخبرك أنه رائع. أما Reverie فيشغّل نماذج كثيرة وينشر أداءها الفعلي بعضها أمام بعض — داخل المنتج، حيث تختار أنت.
تأتي درجات الجودة من اختيار المستخدمين بين ردين مجهولين. لا يظهر اسم ولا مزود أثناء المقارنة، فالأرقام تقيس الكتابة لا العلامة التجارية.
إلى جانب الدرجات الإجمالية، تعرض أداة الاختيار بيانات المواجهات المباشرة — أي نموذج يتفوق على أيٍّ وبأي فارق، في المقارنات التي أجراها المستخدمون فعلًا.
درجة من أربعين مقارنة ليست كدرجة من أربعة آلاف. كل مقياس يحمل مستوى ثقة من نجمة إلى خمس نجوم مشتقًا من حجم العينة، ويُعرض إلى جانب الرقم.
يُقاس زمن أول وحدة نصية وعدد الوحدات في الثانية من محادثات الإنتاج — المتوسط والوسيط وp95 — لا نقلًا عن ورقة بيانات المزود.
المشاهد المختلفة تريد عقولًا مختلفة. قصة حب طويلة بطيئة، ومجلس حرب تكتيكي، وتبادل كوميدي سريع — ليس لها كلها النموذج المثالي نفسه، فلا ينبغي أن تُحبس في نموذج واحد.
نماذج دردشة من DeepSeek وGoogle وZ.AI وXiaomi وMeta وغيرها، بنوافذ سياق من 131K إلى مليون وحدة نصية، كلها خلف واجهة واحدة ورصيد واحد.
تُسعَّر النماذج فرادى، من 0.3× إلى 2× من سعر الرصيد الأساسي، والمضاعف مطبوع على بطاقة النموذج. نماذج أرخص للمشاهد اليومية، وطليعية حين يهم الأمر.
نماذج استدلال مخصصة تفكر قبل أن تكتب للحبكات المعقدة؛ ونماذج هجينة تستدل عند الطلب؛ ونماذج متعددة الوسائط تقرأ الصور التي ترفعها إلى الدردشة.
يبقى النموذج المجاني متاحًا أيًا كان رصيدك، مع حدود استخدام عادل — أرضية تحت كل محادثة، لا نسخة تجريبية تنتهي.
حين تكون مستعدًا
افتح أداة اختيار النماذج في أي دردشة، ورتّبها بحسب الأرقام، واعثر على نموذجك المفضل.