بيانات حقيقية، لا تسويق: كيف نُصنّف نماذج الذكاء الاصطناعي فعلاً

وعد قطعناه في نوفمبر

في منشورنا حول مقارنة الردود الثنائية، طلبنا منك شيئاً بسيطاً: عندما ترى ردين مختلفين للذكاء الاصطناعي جنباً إلى جنب، اختر ذلك الذي تفضله.

وعدنا بأن هذه الاختيارات ستكون مهمة. قلنا إن تفضيلاتك ستساعدنا على ترشيح نماذج أفضل، وتحسين توجيه الطلبات، و"بناء ميزات تتماشى مع تفضيلات المستخدمين الحقيقية."

اليوم نُطلق أول ميزة مبنية مباشرة على تلك البيانات — ونريد أن نشرح لك كيف تعمل بالضبط، لأن الشفافية هي جوهر الأمر كله.

محدد النماذج الجديد

افتح قائمة النماذج المنسدلة في أي محادثة. ستلاحظ أنها لم تعد قائمة مسطحة بالأسماء. كل نموذج لديه الآن مقياسان مرئيان:

الجودة: كم مرة فضّلتَ أنت والمستخدمون الآخرون هذا النموذج في مقارنات A/B حقيقية
السرعة: مدى سرعة استجابته الفعلية، استناداً إلى آخر بضع مئات من الرسائل

هذا كل شيء. لا شارات تسويقية. لا "اختيار المحرر". لا ملصقات "متميز" مخترعة لدفعك للترقية. مجرد رقمين، كلاهما مستمد من بيانات استخدام حقيقية.

كيف تعمل "الجودة" (ولماذا هي مختلفة)

تُصنّف معظم منصات الذكاء الاصطناعي النماذج بإحدى ثلاث طرق:

علاقات عامة من المُزوّد: "Anthropic أصدرت نموذجاً جديداً، فلنروّج له."
حدس داخلي: "فريقنا جربه لساعة وأعجبه."
من يدفع أكثر: "شريكنا يقدم لنا عمولة هذا الشهر."

لا أحد من هذه الطرق يخبرك ما إذا كان النموذج جيداً فعلاً لـلعب الأدوار — وهذا هو سبب وجودك هنا.

إليك ما نفعله بدلاً من ذلك:

الخطوة 1: مبارزات A/B حقيقية

في كل مرة رأيت فيها مقارنة الردود الثنائية واخترت أحدهما، سجّلنا ذلك. نفس الموجِّه، نفس الشخصية، نفس السياق — النموذج فقط هو ما تغير. اختيارك كان الإشارة الوحيدة.

بعد أشهر من هذا، تجمّعت لدينا عشرات الآلاف من المواجهات المباشرة بين كل زوج من النماذج النشطة على المنصة.

الخطوة 2: Wilson Score، وليس نسبة فوز ساذجة

هنا تفصيل دقيق لكنه مهم. إذا كان النموذج لديه 4 انتصارات وخسارة واحدة، فإن نسبة فوزه الساذجة هي 80%. تبدو رائعة. لكن 5 عينات هي ضوضاء إحصائية. النموذج الذي لديه 800 انتصار و200 خسارة نسبة فوزه أيضاً 80%، ومن الواضح أنه يجب أن نثق به أكثر.

نستخدم Wilson Score Lower Bound — نفس الخوارزمية التي يستخدمها Reddit لترتيب التعليقات. إنه يعاقب أحجام العينات الصغيرة، لذا يحتاج النموذج إلى تفضيل عالٍ وبيانات كافية في آن واحد ليرتفع في الترتيب.

لهذا ترى صفاً من نقاط الثقة الصغيرة بجانب كل نموذج: ●●●●○ تعني "لدينا الكثير من البيانات عن هذا." ●●○○○ تعني "تعامل مع الرقم بحذر." نحن لا نخفي عدم اليقين — نُريك إياه.

الخطوة 3: لا نخبرك أبداً بالأرقام الخام

هنا نرسم خطاً للخصوصية. يعرض المحدد نسبة الفوز ومستوى الثقة، لكن ليس الأعداد المطلقة أبداً. ربما تم اختيار نموذج 1,200 مرة أو 12,000 مرة — ستراها "●●●●●" في كلتا الحالتين، لأن كشف الأرقام الدقيقة سيُسرّب عدد مستخدمينا وما يفعلونه.

هذه مقايضة متعمدة. نريد منك أن تثق في التقييم دون أن نتحول إلى لوحة تحليلات يمكن لأي شخص استخراج بياناتها.

كيف تعمل "السرعة"

الجودة رقم واحد. السرعة يجب أن تُقاس من الطلبات الحقيقية، وليس من معايير يدّعيها المُزوّدون.

كل رسالة نُقدمها تحمل كتلة بيانات وصفية تحتوي على زمن أول رمز (TTFT) الفعلي والرموز في الثانية لتلك الاستجابة. نُجمع آخر ~50 منها لكل نموذج ونعرض الوسيط (p50) — وليس المتوسط.

لماذا الوسيط؟ لأن المتوسطات تكذب عند وجود قيم شاذة. إذا كان النموذج سريعاً عادةً لكن مرّ بثلاث ليالٍ بطيئة الأسبوع الماضي، فإن المتوسط سيخبرك أن النموذج بطيء. الوسيط يخبرك بما ستختبره عادةً، وهذا ما يهمك حقاً.

إذا حركت المؤشر فوق مؤشر السرعة، سترى أيضاً p95 — أسوأ حالات التأخير. بعض النماذج لديها توزيعات تأخير ضيقة جداً، وأخرى لها ذيول طويلة. الآن يمكنك رؤية كليهما.

لماذا يستخدم شريط السرعة مقياساً لوغاريتمياً

استجابة بثانية واحدة تبدو أسرع بكثير من استجابة بـ5 ثوان. استجابة بـ5 ثوان تبدو تقريباً مثل استجابة بـ6 ثوان. إدراك الإنسان للتأخير لوغاريتمي، لذا فإن شريط السرعة مرسوم على مقياس لوغاريتمي عبر [500ms, 20s].

هذا يعني أن نموذج التفكير الذي يستغرق 18 ثانية للرمز الأول (نعم، هذه بيانات حقيقية) يظهر بشريط سرعة فارغ تقريباً — وليس كنسخة أقصر قليلاً من نموذج 8 ثوان. لأن في إحساسك الداخلي، هاتان التجربتان مختلفتان تماماً.

ما لا نفعله عمداً

نريد أن نكون محددين بشأن الأشياء التي نتجنبها:

لا "صندوق أسود" للترشيحات. الترتيب الافتراضي هو البيانات فقط: حسب Wilson Score، تنازلياً. تظهر نماذج Pro في الأعلى فقط لأن مستخدمي Pro دفعوا مقابلها، وليس لأننا رفعنا ترتيبها يدوياً. ضمن Pro وضمن Free، الترتيب مكتسب بشكل خالص.
لا شارات "جديد ومُحسّن" مزيفة. يحصل النموذج على وسم NEW فقط إذا تمت إضافته إلى المنصة في آخر 14 يوماً. بعد ذلك تسقط الشارة تلقائياً — لا يمكن لأي إنسان إبقاؤها مثبتة.
لا ترتيب يقوده الشركاء. لا نتلقى أي مدفوعات من أي مزود ذكاء اصطناعي مقابل التموضع. إذا أصدرت OpenAI أو Anthropic غداً نموذجاً يحتل المركز الأخير في مبارزاتنا، فسيكون في أسفل القائمة. (وبصراحة، سنُطلقه على أي حال وندع البيانات تتحدث.)
لا "الأغلى هو الأفضل". نموذجنا Pro الأغلى ليس دائماً أعلى نموذج جودةً على المنصة في الوقت الحالي. نحن نُريك ذلك. لا نُخفيه.

مجموعة "قيد التقييم"

عندما يكون النموذج جديداً تماماً، ليس لديه بيانات A/B كافية للحصول على Wilson Score ذي معنى. وضع نسبة فوز 50% عليه سيكون مضللاً.

لذلك تذهب النماذج الجديدة إلى مجموعة قيد التقييم في أعلى المحدد. تعرض سرعتها (التي يمكننا قياسها فوراً) لكنها تقول "جمع البيانات" حيث يجب أن يكون رقم الجودة. بمجرد تراكم مبارزات كافية، تتخرج تلقائياً إلى القائمة المُصنّفة الرئيسية.

ستعرف دائماً ما إذا كان التقييم الذي تنظر إليه ذو دلالة إحصائية أم مجرد عنصر نائب.

لماذا هذا مهم

مساحة رفقاء الذكاء الاصطناعي مليئة بالمنصات التي تتحدث كثيراً عن "أفضل النماذج" دون أن تُريك رقماً واحداً أبداً. بعضها يبيع نماذج أرخص بأسعار فاخرة. بعضها يُوجّهك إلى النموذج الذي عليه عرض هذا الشهر. بعضها يخمن فقط.

نختار افتراضاً مختلفاً: نخبرك بالحقيقة، نُريك الحسابات، ونتركك تقرر.

لست بحاجة إلى الوثوق بنا عندما نقول إن نموذجاً ما جيد. يمكنك النظر إلى الشريط، رؤية نقاط الثقة، تمرير المؤشر لرؤية p95، وتكوين رأيك الخاص. إذا كنت تعتقد أن البيانات خاطئة، فإن مقارنة الردود الثنائية لا تزال تعمل في محادثاتك — وتصويتك التالي للتفضيل سيُحرّك الرقم.

تذكير: كلها واجهات API رسمية

هذه أيضاً لحظة جيدة لتكرار شيء قلناه من قبل: كل نموذج في المحدد يُقدَّم عبر واجهة API الرسمية للمزود. لا نسخ مُعدّلة. لا بدائل مُكمّمة. لا نماذج غامضة "مكافئة لـGPT-4" من أطراف ثالثة.

إذا قال المحدد "Claude Opus 4.6"، فأنت تتحدث إلى Claude Opus 4.6. إذا قال "DeepSeek V3.2"، فأنت تتحدث إلى DeepSeek V3.2. درجات الجودة لها معنى تحديداً لأن النماذج حقيقية.

ماذا بعد

المحدد هو الجزء المرئي. هناك المزيد نريد فعله بهذه البيانات:

توصيات حسب الشخصية. نماذج مختلفة تتفوق في أنماط شخصيات مختلفة. بيانات تفضيلاتنا يجب أن تتيح لنا اقتراح "يميل المستخدمون إلى تفضيل النموذج X لهذا النوع من الشخصيات."
ترتيبات مخصصة. الآن يرى الجميع نفس الترتيب العالمي. في النهاية يجب أن تطفو نماذجك المفضلة إلى الأعلى بناءً على اختياراتك السابقة.
تنبيهات حية لصحة النماذج. إذا كان لدى API المزود يوم سيء وارتفع TTFT، يجب أن يعكس المحدد ذلك خلال ساعة، وليس في اليوم التالي.

لكن كل هذا يتطلب أساساً من البيانات الصادقة. هذا الأساس هو ما نُطلقه اليوم.

افتح محدد النماذج في محادثتك التالية وألقِ نظرة. إذا كنت قد صوّتَ في مقارنات الردود الثنائية، فبصماتك على كل رقم تراه.

جرب المحدد الجديد →