Taxa de Vitória em A/B Cego
Quando os usuários comparam duas respostas sem saber qual modelo escreveu qual, registramos a escolha. As taxas de vitória vêm desses confrontos cegos, pontuados com intervalos de confiança de Wilson.
Modelos de oito fornecedores, cada um com pontuações de qualidade de testes A/B cegos, taxas de like dos usuários e estatísticas de velocidade ao vivo — direto no seletor. Troque quando quiser, inclusive no meio da conversa.
DeepSeek V4 Flash
DeepSeek
GLM 5
Z.AI
Llama 3.1 8B
Meta
Nossa posição
Toda plataforma diz que sua IA é ótima. Preferimos mostrar as taxas de vitória e deixar os modelos defenderem a si mesmos.
— Equipe Reverie
Transparente por padrão
Quatro métricas, medidas em conversas reais na Reverie — não benchmarks de fornecedor copiados de um press release.
Quando os usuários comparam duas respostas sem saber qual modelo escreveu qual, registramos a escolha. As taxas de vitória vêm desses confrontos cegos, pontuados com intervalos de confiança de Wilson.
Cada joinha para cima ou para baixo em respostas reais entra em uma taxa de like por modelo, para você ver como cada modelo é recebido por roleplayers de verdade.
Quanto tempo até o modelo começar a responder — média, mediana e p95, medidos no tráfego ao vivo da nossa própria infraestrutura.
A velocidade bruta de geração depois que a resposta começa a fluir. Modelos rápidos mantêm as cenas longas em movimento — e você vê exatamente quais são.
Cada estatística de qualidade carrega um nível de confiança de 1 a 5 estrelas baseado no tamanho da amostra, para você saber o quanto um número é sólido antes de confiar nele.
Modelos novos começam no estado 'em avaliação' — nós os exibimos sem alegações de qualidade até acumular comparações cegas suficientes para dizer algo honesto.
A escalação atual
Lido ao vivo do nosso registro de modelos — quando a escalação muda, esta tabela muda junto.
| Modelo | Contexto | Raciocínio | Custo |
|---|---|---|---|
DeepSeek V3.2Básico DeepSeek | 164K | — | 0.5× créditos |
DeepSeek V4 FlashBásico DeepSeek | 164K | Opcional | 0.3× créditos |
DeepSeek V4 ProBásico DeepSeek | 164K | Opcional | 0.7× créditos |
DeepSeek R1Básico DeepSeek | 164K | Sempre ativo | 1× créditos |
MiMo V2 FlashBásico Xiaomi | 262K | Opcional | 0.3× créditos |
MiMo V2.5Básico Xiaomi | 262K | Opcional | 0.3× créditos |
GLM 4.5 AirBásico Z.AI | 131K | Opcional | 0.5× créditos |
GLM 4.7Básico Z.AI | 200K | Opcional | 1× créditos |
GLM 5Avançado Z.AI | 200K | Opcional | 1.3× créditos |
Gemini 3 Flash PreviewAvançado | 1M | — | 1.2× créditos |
Llama 3.1 8BBásico Meta | 131K | — | Grátis |
Os multiplicadores de créditos são relativos à taxa base de créditos. Modelos de geração de imagem e vídeo estão disponíveis separadamente no chat.
O que você ganha
Trocar de modelo aqui não é um easter egg no menu de configurações. É como o produto foi feito para ser usado.
Mude de modelo entre mensagens sem perder o fio. Traga um modelo mais afiado para a cena decisiva, volte para o básico no papo casual.
Não gostou de uma resposta? Gere de novo com um modelo diferente e fique com a versão que se lê melhor. Essas escolhas alimentam as estatísticas de taxa de vitória.
Os criadores podem definir um modelo preferido para cada personagem, para que ele fale com o motor para o qual foi escrito. Sua escolha sempre tem prioridade.
Um modelo gratuito e capaz continua no menu a zero créditos, com limites de uso justo — ficar sem créditos nunca significa ficar sem conversa.
Cada modelo mostra seu multiplicador de créditos — de 0.3× nos modelos econômicos a 2× nos de fronteira — para que o custo seja uma escolha sua, não uma surpresa na conta.
Modelos de raciocínio puro para tramas intrincadas, e híbridos que pensam só quando pedidos. Escolha o cérebro que combina com a cena.
Perguntas frequentes
A maioria das plataformas escolhe um modelo, dá uma marca a ele e diz que é maravilhoso. A Reverie roda vários e publica como eles realmente se saem uns contra os outros — dentro do produto, onde você escolhe.
As pontuações de qualidade vêm de usuários escolhendo entre duas respostas anônimas. Nem o rótulo nem o fornecedor ficam visíveis durante a comparação, então os números medem a escrita, não a marca.
Além das pontuações agregadas, o seletor mostra dados de confrontos diretos — qual modelo vence qual, e por quanto, nas comparações que os usuários realmente fizeram.
Uma pontuação de quarenta comparações não é uma pontuação de quatro mil. Cada métrica carrega um nível de confiança de 1 a 5 estrelas derivado do tamanho da amostra, exibido ao lado do número.
Tempo até o primeiro token e tokens por segundo são medidos em conversas de produção — média, mediana e p95 — não citados de uma ficha técnica de fornecedor.
Cenas diferentes pedem cérebros diferentes. Um longo romance de fogo lento, um conselho de guerra tático e uma troca cômica rápida não têm o mesmo modelo ideal — então você não deveria ficar preso a um só.
Modelos de chat da DeepSeek, Google, Z.AI, Xiaomi, Meta e outros, com janelas de contexto de 131K a um milhão de tokens, tudo atrás de uma única interface e um único saldo de créditos.
Os modelos têm preços individuais, de 0.3× a 2× da taxa base de créditos, e o multiplicador vem impresso na ficha do modelo. Modelos mais baratos para as cenas do dia a dia, modelos de fronteira quando importa.
Modelos de raciocínio dedicados pensam antes de escrever para tramas intrincadas; modelos híbridos raciocinam sob demanda; modelos multimodais conseguem ler as imagens que você envia no chat.
O modelo gratuito continua disponível independentemente do seu saldo, com limites de uso justo — um piso sob cada conversa, não um teste que expira.
Quando estiver pronto
Abra o seletor de modelos em qualquer chat, ordene pelos números e encontre o seu favorito.