Tasa de Victoria en A/B a Ciegas
Cuando los usuarios comparan dos respuestas sin saber qué modelo escribió cuál, registramos la elección. Las tasas de victoria salen de esos duelos a ciegas, puntuados con intervalos de confianza de Wilson.
Modelos de ocho proveedores, cada uno con puntuaciones de calidad de tests A/B a ciegas, tasas de me gusta y estadísticas de velocidad en vivo — directamente en el selector. Cambia cuando quieras, incluso a mitad de conversación.
DeepSeek V4 Flash
DeepSeek
GLM 5
Z.AI
Llama 3.1 8B
Meta
Nuestra postura
Todas las plataformas dicen que su IA es genial. Preferimos enseñarte las tasas de victoria y que los modelos se defiendan solos.
— Equipo Reverie
Transparente por defecto
Cuatro métricas, medidas en conversaciones reales en Reverie — no benchmarks de proveedor copiados de una nota de prensa.
Cuando los usuarios comparan dos respuestas sin saber qué modelo escribió cuál, registramos la elección. Las tasas de victoria salen de esos duelos a ciegas, puntuados con intervalos de confianza de Wilson.
Cada pulgar arriba y abajo en respuestas reales alimenta una tasa de me gusta por modelo, así ves cómo aterriza cada modelo entre roleplayers de verdad.
Cuánto tarda el modelo en empezar a responder — media, mediana y p95, medidos con tráfico en vivo en nuestra propia infraestructura.
Velocidad de generación pura una vez que la respuesta empieza a fluir. Los modelos rápidos mantienen en marcha las escenas largas — y puedes ver exactamente cuáles son.
Cada estadística de calidad lleva un nivel de confianza de 1–5 estrellas según el tamaño de la muestra, así sabes cuán asentado está un número antes de fiarte de él.
Los modelos nuevos empiezan en estado de 'evaluación' — los mostramos sin afirmaciones de calidad hasta que se acumulan suficientes comparaciones a ciegas para decir algo honesto.
La alineación actual
Leído en vivo de nuestro registro de modelos — cuando la alineación cambia, esta tabla cambia con ella.
| Modelo | Contexto | Razonamiento | Coste |
|---|---|---|---|
DeepSeek V3.2Básico DeepSeek | 164K | — | 0.5× créditos |
DeepSeek V4 FlashBásico DeepSeek | 164K | Opcional | 0.3× créditos |
DeepSeek V4 ProBásico DeepSeek | 164K | Opcional | 0.7× créditos |
DeepSeek R1Básico DeepSeek | 164K | Siempre activo | 1× créditos |
MiMo V2 FlashBásico Xiaomi | 262K | Opcional | 0.3× créditos |
MiMo V2.5Básico Xiaomi | 262K | Opcional | 0.3× créditos |
GLM 4.5 AirBásico Z.AI | 131K | Opcional | 0.5× créditos |
GLM 4.7Básico Z.AI | 200K | Opcional | 1× créditos |
GLM 5Avanzado Z.AI | 200K | Opcional | 1.3× créditos |
Gemini 3 Flash PreviewAvanzado | 1M | — | 1.2× créditos |
Llama 3.1 8BBásico Meta | 131K | — | Gratis |
Los multiplicadores de créditos son relativos a la tarifa base. Los modelos de generación de imagen y vídeo están disponibles aparte en el chat.
Lo que recibes
Aquí cambiar de modelo no es un huevo de pascua del menú de ajustes. Es como está pensado usarse el producto.
Cambia de modelo entre mensajes sin perder el hilo. Trae un modelo más afilado para la escena clave y vuelve al ligero para la charla.
¿No te gustó una respuesta? Vuelve a tirarla con otro modelo y quédate con la versión que mejor se lea. Esas elecciones alimentan las estadísticas de victoria.
Los creadores pueden fijar un modelo preferido para cada personaje, así habla con el motor para el que fue escrito. Tu elección siempre manda.
Un modelo gratuito capaz se queda en el menú a cero créditos, con límites de uso justo — quedarte sin créditos nunca significa quedarte sin conversación.
Cada modelo muestra su multiplicador de créditos — de los económicos a 0.3× a los de frontera a 2× — así el coste es una elección que haces, no una sorpresa en la factura.
Modelos de razonamiento puro para tramas intrincadas, e híbridos que piensan solo cuando se les pide. Elige el cerebro que encaja con la escena.
Preguntas frecuentes
La mayoría de las plataformas eligen un modelo, le ponen marca y te dicen que es maravilloso. Reverie ejecuta muchos y publica cómo rinden de verdad unos contra otros — en el producto, donde tú eliges.
Las puntuaciones de calidad salen de usuarios eligiendo entre dos respuestas anónimas. Ni la etiqueta ni el proveedor son visibles durante la comparación, así que los números miden la escritura, no la marca.
Más allá de las puntuaciones agregadas, el selector muestra datos de enfrentamientos directos — qué modelo gana a cuál, y por cuánto, en las comparaciones que los usuarios realmente hicieron.
Una puntuación de cuarenta comparaciones no es una de cuatro mil. Cada métrica lleva un nivel de confianza de 1–5 estrellas derivado del tamaño de la muestra, mostrado junto al número.
El tiempo hasta el primer token y los tokens por segundo se miden en conversaciones de producción — media, mediana y p95 — no se citan de la hoja técnica de un proveedor.
Escenas distintas piden cerebros distintos. Un romance largo a fuego lento, un consejo de guerra táctico y un intercambio cómico rápido no tienen el mismo modelo ideal — así que no deberías estar atado a uno.
Modelos de chat de DeepSeek, Google, Z.AI, Xiaomi, Meta y más, con ventanas de contexto desde 131K hasta un millón de tokens, todo tras una sola interfaz y un solo saldo de créditos.
Los modelos se tarifican individualmente, de 0.3× a 2× la tarifa base de créditos, y el multiplicador va impreso en la ficha del modelo. Modelos baratos para las escenas del día a día, modelos de frontera cuando importa.
Los modelos de razonamiento dedicados piensan antes de escribir para tramas intrincadas; los híbridos razonan bajo demanda; los multimodales pueden leer las imágenes que subes al chat.
El modelo gratuito sigue disponible sea cual sea tu saldo, con límites de uso justo — un suelo bajo cada conversación, no una prueba que caduca.
Cuando estés listo
Abre el selector de modelos en cualquier chat, ordena por los números y encuentra tu favorito.