Datos reales, no marketing: cómo clasificamos realmente los modelos de IA

Una promesa que hicimos en noviembre

En nuestra publicación sobre la comparación de respuestas dobles, te pedimos algo pequeño: cuando vieras dos respuestas de IA una al lado de la otra, eligieras la que prefirieras.

Prometimos que esas elecciones importarían. Dijimos que tus preferencias nos ayudarían a recomendar mejores modelos, optimizar nuestro routing y "construir funcionalidades alineadas con las preferencias reales de los usuarios."

Hoy lanzamos la primera función directamente construida sobre esos datos — y queremos explicarte exactamente cómo funciona, porque la transparencia es todo el punto.

El nuevo selector de modelos

Abre el desplegable de modelos en cualquier chat. Notarás que ya no es una lista plana de nombres. Cada modelo ahora tiene dos métricas visibles:

Calidad: cuántas veces tú y otros usuarios prefirieron este modelo en comparaciones A/B reales
Velocidad: qué tan rápido responde realmente, basado en los últimos cientos de mensajes

Eso es todo. Sin insignias de marketing. Sin "Elección del editor". Sin pegatinas "Premium" inventadas para que actualices. Solo dos números, ambos derivados de datos de uso real.

Cómo funciona la "Calidad" (y por qué es diferente)

La mayoría de las plataformas de IA clasifican los modelos de una de estas tres formas:

Relaciones públicas del proveedor: "Anthropic lanzó un modelo nuevo, así que lo promocionamos."
Sensaciones internas: "Nuestro equipo lo probó una hora y le gustó."
El que más paga: "Nuestro socio nos da una comisión este mes."

Ninguna de estas te dice si un modelo es realmente bueno para roleplay — que es a lo que vienes aquí.

Esto es lo que hacemos en su lugar:

Paso 1: Duelos A/B reales

Cada vez que viste la comparación de respuestas dobles y elegiste una, registramos esa elección. Mismo prompt, mismo personaje, mismo contexto — solo cambiaba el modelo. Tu elección era la única señal.

Después de meses de esto, tenemos decenas de miles de enfrentamientos cara a cara entre cada modelo activo de la plataforma.

Paso 2: Wilson Score, no tasa de victoria ingenua

Aquí hay un detalle sutil pero importante. Si un modelo tiene 4 victorias y 1 derrota, su tasa de victoria ingenua es del 80%. Suena genial. Pero 5 muestras son ruido estadístico. Un modelo con 800 victorias y 200 derrotas también tiene una tasa del 80%, y obviamente debemos confiar más en este último.

Usamos el Wilson Score Lower Bound — el mismo algoritmo que Reddit usa para clasificar comentarios. Penaliza muestras pequeñas, así que un modelo necesita tanto alta preferencia como suficientes datos para subir en el ranking.

Por eso ves una fila de pequeños puntos de confianza junto a cada modelo: ●●●●○ significa "tenemos muchos datos sobre este." ●●○○○ significa "trata el número con cautela." No estamos escondiendo la incertidumbre — te la mostramos.

Paso 3: Nunca te decimos los números brutos

Aquí trazamos una línea de privacidad. El selector muestra la tasa de victoria y el nivel de confianza, pero nunca los recuentos absolutos. Un modelo puede haber sido elegido 1.200 veces o 12.000 veces — verás "●●●●●" en ambos casos, porque exponer los números exactos revelaría cuántos usuarios tenemos y qué están haciendo.

Es un compromiso deliberado. Queremos que confíes en la calificación sin convertirnos en un panel de análisis que cualquiera puede scrapear.

Cómo funciona la "Velocidad"

La calidad es un número. La velocidad necesita medirse a partir de solicitudes reales, no de benchmarks reclamados por los proveedores.

Cada mensaje que servimos lleva un blob de metadatos con el time-to-first-token (TTFT) real y los tokens por segundo de esa respuesta. Agregamos los ~50 más recientes por modelo y mostramos la mediana (p50) — no el promedio.

¿Por qué la mediana? Porque los promedios mienten cuando hay valores atípicos. Si un modelo normalmente es rápido pero tuvo tres noches lentas la semana pasada, el promedio te dirá que el modelo es lento. La mediana te dice lo que típicamente experimentarás, que es lo que realmente te importa.

Si pasas el cursor sobre el indicador de velocidad, también verás el p95 — la latencia en el peor de los casos. Algunos modelos tienen distribuciones de latencia muy ajustadas, otros tienen colas largas. Ahora puedes ver ambas.

Por qué la barra de velocidad usa escala logarítmica

Una respuesta de 1 segundo se siente mucho más rápida que una de 5 segundos. Una respuesta de 5 segundos se siente casi igual que una de 6 segundos. La percepción humana de la latencia es logarítmica, así que la barra de velocidad está mapeada en una escala logarítmica entre [500ms, 20s].

Esto significa que un modelo de razonamiento que tarda 18 segundos para el primer token (sí, esto es real) aparece con una barra de velocidad prácticamente vacía — no como una versión ligeramente más corta de un modelo de 8 segundos. Porque en tu sensación visceral, esas dos experiencias son completamente diferentes.

Lo que no hacemos a propósito

Queremos ser específicos sobre lo que evitamos:

Sin caja negra de "Recomendado para ti". El orden por defecto son simplemente los datos: por Wilson Score, descendente. Los modelos Pro flotan arriba solo porque los usuarios Pro pagaron por ellos, no porque los hayamos impulsado manualmente. Dentro de Pro y dentro de Free, el orden se gana puramente.
Sin insignias falsas de "Nuevo y mejorado". Un modelo solo recibe la etiqueta NEW si fue agregado a la plataforma en los últimos 14 días. Después la insignia se cae automáticamente — ningún humano puede mantenerla fijada.
Sin clasificación impulsada por socios. No aceptamos pagos de ningún proveedor de IA por ubicación. Si OpenAI o Anthropic lanzara mañana un modelo que quedara último en nuestros duelos, estaría al final de la lista. (Y honestamente, lo lanzaríamos de todos modos y dejaríamos que los datos hablaran.)
Sin "el más caro es el mejor". Nuestro modelo Pro más caro no siempre es el modelo de mayor calidad en la plataforma en este momento. Te lo mostramos. No lo escondemos.

El bucket "Evaluando"

Cuando un modelo es nuevo, no tiene suficientes datos A/B para tener un Wilson Score significativo. Ponerle una tasa de victoria del 50% sería engañoso.

Así que los nuevos modelos van a un bucket de Evaluando en la parte superior del selector. Muestran su velocidad (que podemos medir inmediatamente) pero dicen "Recopilando datos" donde estaría el número de calidad. Una vez que acumulan suficientes duelos, gradúan automáticamente a la lista clasificada principal.

Siempre sabrás si la calificación que estás viendo es estadísticamente significativa o solo un marcador de posición.

Por qué esto importa

El espacio de los compañeros de IA está lleno de plataformas que hablan mucho de "los mejores modelos" sin mostrarte un solo número. Algunas presentan modelos más baratos con precios premium. Algunas te enrutan al modelo que está en oferta este mes. Algunas simplemente adivinan.

Elegimos un default diferente: decirte la verdad, mostrarte la matemática, dejarte decidir.

No tienes que confiar en nosotros cuando decimos que un modelo es bueno. Puedes ver la barra, los puntos de confianza, pasar el cursor para el p95 y decidir por ti mismo. Si crees que los datos están mal, la comparación de respuestas dobles sigue funcionando en tus chats — y tu próximo voto de preferencia moverá el número.

Un recordatorio: todas son APIs oficiales

Este también es un buen momento para repetir algo que ya hemos dicho: cada modelo en el selector se sirve a través de la API oficial del proveedor. Sin imitaciones fine-tuneadas. Sin sustitutos cuantizados. Sin modelos misteriosos "equivalentes a GPT-4" de terceros.

Si el selector dice "Claude Opus 4.6", estás hablando con Claude Opus 4.6. Si dice "DeepSeek V3.2", estás hablando con DeepSeek V3.2. Los puntajes de calidad tienen sentido precisamente porque los modelos son reales.

Lo que viene

El selector es la parte visible. Hay más que queremos hacer con estos datos:

Recomendaciones por personaje. Diferentes modelos sobresalen en diferentes arquetipos de personajes. Nuestros datos de preferencias deberían permitirnos sugerir "los usuarios tienden a preferir el modelo X para este tipo de personaje."
Rankings personalizados. Ahora mismo todos ven el mismo ranking global. Eventualmente tus modelos preferidos deberían flotar a la parte superior, basados en tus propias elecciones pasadas.
Alertas en vivo de salud de modelos. Si la API de un proveedor tiene un mal día y el TTFT se dispara, el selector debería reflejarlo en una hora, no al día siguiente.

Pero todo eso requiere una base de datos honestos. Esa base es lo que estamos lanzando hoy.

Abre el selector de modelos en tu próximo chat y échale un vistazo. Si has votado en comparaciones de respuestas dobles, tus huellas están en cada número que ves.

Probar el nuevo selector →