Des données réelles, pas du marketing : comment nous classons vraiment les modèles d'IA

Une promesse faite en novembre

Dans notre article sur la comparaison de doubles réponses, nous vous avons demandé une petite chose : quand vous voyiez deux réponses d'IA côte à côte, choisissez celle que vous préférez.

Nous avons promis que ces choix compteraient. Nous avons dit que vos préférences nous aideraient à recommander de meilleurs modèles, à optimiser notre routage et à "construire des fonctionnalités alignées sur les vraies préférences des utilisateurs."

Aujourd'hui, nous lançons la première fonctionnalité directement construite sur ces données — et nous voulons vous expliquer exactement comment elle fonctionne, parce que la transparence est tout l'enjeu.

Le nouveau sélecteur de modèles

Ouvrez le menu déroulant des modèles dans n'importe quel chat. Vous remarquerez que ce n'est plus une liste plate de noms. Chaque modèle a maintenant deux métriques visibles :

Qualité : combien de fois vous et les autres utilisateurs avez préféré ce modèle dans des comparaisons A/B réelles
Vitesse : à quelle vitesse il répond réellement, basé sur les dernières centaines de messages

C'est tout. Pas de badges marketing. Pas de "Choix de l'éditeur". Pas d'autocollants "Premium" inventés pour vous pousser à mettre à niveau. Juste deux chiffres, tous deux dérivés de données d'utilisation réelles.

Comment fonctionne la "Qualité" (et pourquoi c'est différent)

La plupart des plateformes IA classent les modèles de l'une de ces trois manières :

PR du fournisseur : "Anthropic a sorti un nouveau modèle, donc on le pousse."
Intuition interne : "Notre équipe l'a testé une heure et l'a aimé."
Celui qui paie le plus : "Notre partenaire nous offre une commission ce mois-ci."

Aucune de ces méthodes ne vous dit si un modèle est réellement bon pour le roleplay — ce qui est la raison pour laquelle vous êtes ici.

Voici ce que nous faisons à la place :

Étape 1 : De vrais duels A/B

Chaque fois que vous avez vu la comparaison de doubles réponses et choisi l'une des deux, nous avons enregistré ce choix. Même prompt, même personnage, même contexte — seul le modèle changeait. Votre choix était le seul signal.

Au fil des mois, nous avons accumulé des dizaines de milliers de confrontations directes sur chaque modèle actif de la plateforme.

Étape 2 : Wilson Score, pas un taux de victoire naïf

Voici un détail subtil mais important. Si un modèle a 4 victoires et 1 défaite, son taux de victoire naïf est de 80%. Ça a l'air bien. Mais 5 échantillons, c'est du bruit statistique. Un modèle avec 800 victoires et 200 défaites a aussi un taux de 80%, et on devrait évidemment lui faire plus confiance.

Nous utilisons le Wilson Score Lower Bound — le même algorithme que Reddit utilise pour classer les commentaires. Il pénalise les petits échantillons, donc un modèle a besoin à la fois d'une préférence élevée ET d'assez de données pour grimper dans le classement.

C'est pourquoi vous verrez une rangée de petits points de confiance à côté de chaque modèle : ●●●●○ signifie "nous avons beaucoup de données sur ce modèle." ●●○○○ signifie "à prendre avec précaution." Nous ne cachons pas l'incertitude — nous vous la montrons.

Étape 3 : Nous ne révélons jamais les chiffres bruts

Voici où nous traçons une ligne en matière de confidentialité. Le sélecteur affiche le taux de victoire et le niveau de confiance, mais jamais les chiffres absolus. Un modèle a peut-être été choisi 1 200 fois ou 12 000 fois — vous verrez "●●●●●" dans les deux cas, parce qu'exposer les chiffres exacts révélerait combien d'utilisateurs nous avons et ce qu'ils font.

C'est un compromis délibéré. Nous voulons que vous fassiez confiance à l'évaluation sans nous transformer en tableau de bord d'analyse que n'importe qui peut scraper.

Comment fonctionne la "Vitesse"

La qualité est un chiffre. La vitesse doit être mesurée à partir de vraies requêtes, pas de benchmarks revendiqués par les fournisseurs.

Chaque message que nous servons porte un blob de métadonnées avec le time-to-first-token (TTFT) réel et les tokens par seconde de cette réponse. Nous agrégeons les ~50 plus récents par modèle et affichons la médiane (p50) — pas la moyenne.

Pourquoi la médiane ? Parce que les moyennes mentent quand il y a des valeurs aberrantes. Si un modèle est normalement rapide mais a eu trois mauvaises nuits la semaine dernière, la moyenne dira que le modèle est lent. La médiane vous dit ce que vous expérimenterez typiquement, et c'est ce qui compte vraiment.

Si vous survolez l'indicateur de vitesse, vous verrez aussi le p95 — la latence dans le pire des cas. Certains modèles ont des distributions de latence très serrées, d'autres ont de longues queues. Maintenant vous pouvez voir les deux.

Pourquoi la barre de vitesse utilise une échelle logarithmique

Une réponse à 1 seconde se sent beaucoup plus rapide qu'une réponse à 5 secondes. Une réponse à 5 secondes se sent presque pareil qu'une à 6 secondes. La perception humaine de la latence est logarithmique, donc la barre de vitesse est mappée sur une échelle logarithmique de [500ms, 20s].

Cela signifie qu'un modèle de raisonnement qui prend 18 secondes pour le premier token (oui, c'est une vraie donnée) apparaît avec une barre de vitesse pratiquement vide — pas comme une version légèrement plus courte d'un modèle à 8 secondes. Parce que dans votre ressenti, ces deux expériences sont complètement différentes.

Ce que nous ne faisons pas délibérément

Nous voulons être précis sur ce que nous évitons :

Pas de boîte noire "Recommandé pour vous". Le tri par défaut, c'est juste les données : par Wilson Score, décroissant. Les modèles Pro flottent en haut uniquement parce que les utilisateurs Pro ont payé pour eux, pas parce que nous les avons boostés manuellement. Au sein de Pro et Free, l'ordre est purement mérité.
Pas de faux badges "Nouveau et amélioré". Un modèle obtient le tag NEW uniquement s'il a été ajouté à la plateforme dans les 14 derniers jours. Ensuite, le badge tombe automatiquement — aucun humain ne peut le maintenir épinglé.
Pas de classement piloté par les partenaires. Nous n'acceptons aucun paiement de fournisseurs IA pour le placement. Si OpenAI ou Anthropic sortait demain un modèle qui se classe dernier dans nos duels, il serait au bas de la liste. (Et honnêtement, on le livrerait quand même et on laisserait les données parler.)
Pas de "le plus cher est le meilleur". Notre modèle Pro le plus cher n'est pas toujours le modèle de plus haute qualité sur la plateforme en ce moment. Nous vous le montrons. Nous ne le cachons pas.

Le bucket "Évaluation"

Quand un modèle est tout neuf, il n'a pas assez de données A/B pour avoir un Wilson Score significatif. Lui coller un taux de victoire de 50% serait trompeur.

Donc les nouveaux modèles vont dans un bucket Évaluation en haut du sélecteur. Ils affichent leur vitesse (que nous pouvons mesurer immédiatement) mais disent "Collecte de données" à la place du chiffre de qualité. Une fois qu'ils ont accumulé assez de duels, ils diplôment automatiquement vers la liste classée principale.

Vous saurez toujours si l'évaluation que vous regardez est statistiquement significative ou juste un placeholder.

Pourquoi ça compte

L'espace des compagnons IA est plein de plateformes qui parlent beaucoup de "meilleurs modèles" sans jamais vous montrer un seul chiffre. Certaines mettent en avant des modèles moins chers à des prix premium. Certaines vous routent vers le modèle qui est en promotion ce mois-ci. Certaines devinent juste.

Nous choisissons un autre défaut : vous dire la vérité, vous montrer les calculs, vous laisser décider.

Vous n'avez pas à nous croire quand nous disons qu'un modèle est bon. Vous pouvez regarder la barre, voir les points de confiance, survoler pour le p95, et vous faire votre propre opinion. Si vous pensez que les données sont fausses, la comparaison de doubles réponses tourne toujours dans vos chats — et votre prochain vote de préférence fera bouger le chiffre.

Un rappel : toutes les API officielles

C'est aussi un bon moment pour répéter quelque chose que nous avons déjà dit : chaque modèle dans le sélecteur est servi via l'API officielle du fournisseur. Pas de copies fine-tunées. Pas de remplaçants quantifiés. Pas de modèles mystères "équivalents GPT-4" venant de tiers.

Si le sélecteur dit "Claude Opus 4.6", vous parlez à Claude Opus 4.6. S'il dit "DeepSeek V3.2", vous parlez à DeepSeek V3.2. Les scores de qualité ont du sens précisément parce que les modèles sont réels.

Et après ?

Le sélecteur est la partie visible. Il y a plus que nous voulons faire avec ces données :

Recommandations par personnage. Différents modèles excellent dans différents archétypes de personnages. Nos données de préférence devraient nous permettre de suggérer "les utilisateurs préfèrent le modèle X pour ce type de personnage."
Classements personnalisés. En ce moment, tout le monde voit le même classement global. Éventuellement, vos modèles préférés devraient flotter en haut, basés sur vos propres choix passés.
Alertes de santé des modèles en direct. Si l'API d'un fournisseur a une mauvaise journée et que le TTFT explose, le sélecteur devrait le refléter dans l'heure, pas le lendemain.

Mais tout cela nécessite une fondation de données honnêtes. Cette fondation, c'est ce que nous lançons aujourd'hui.

Ouvrez le sélecteur de modèles dans votre prochain chat et jetez-y un œil. Si vous avez voté dans des comparaisons de doubles réponses, vos empreintes sont sur chaque chiffre que vous voyez.

Essayer le nouveau sélecteur →