Dados reais, não marketing: como realmente classificamos modelos de IA

Uma promessa que fizemos em novembro

Em nosso post sobre comparação de respostas duplas, pedimos algo pequeno: quando você visse duas respostas de IA lado a lado, escolhesse a que preferia.

Prometemos que essas escolhas importariam. Dissemos que suas preferências nos ajudariam a recomendar modelos melhores, otimizar nosso roteamento e "construir recursos alinhados às preferências reais dos usuários."

Hoje estamos lançando o primeiro recurso construído diretamente sobre esses dados — e queremos explicar exatamente como ele funciona, porque transparência é todo o propósito.

O novo seletor de modelos

Abra o dropdown de modelos em qualquer chat. Você notará que não é mais uma lista plana de nomes. Cada modelo agora tem duas métricas visíveis:

Qualidade: quantas vezes você e outros usuários preferiram este modelo em comparações A/B reais
Velocidade: quão rápido ele realmente responde, baseado nas últimas centenas de mensagens

É isso. Sem badges de marketing. Sem "Escolha do editor". Sem adesivos de "Premium" inventados para fazer você fazer upgrade. Apenas dois números, ambos derivados de dados de uso reais.

Como a "Qualidade" funciona (e por que é diferente)

A maioria das plataformas de IA classifica modelos de uma destas três maneiras:

PR do fornecedor: "A Anthropic lançou um novo modelo, então o promovemos."
Sensação interna: "Nosso time testou por uma hora e gostou."
Quem paga mais: "Nosso parceiro está oferecendo uma comissão este mês."

Nenhuma dessas te diz se um modelo é realmente bom para roleplay — que é o motivo pelo qual você está aqui.

Aqui está o que fazemos em vez disso:

Passo 1: Duelos A/B reais

Cada vez que você viu a comparação de respostas duplas e escolheu uma sobre a outra, registramos isso. Mesmo prompt, mesmo personagem, mesmo contexto — apenas o modelo mudava. Sua escolha era o único sinal.

Após meses disso, temos dezenas de milhares de confrontos diretos entre cada modelo ativo na plataforma.

Passo 2: Wilson Score, não taxa de vitória ingênua

Aqui está um detalhe sutil mas importante. Se um modelo tem 4 vitórias e 1 derrota, sua taxa de vitória ingênua é 80%. Parece ótimo. Mas 5 amostras é ruído estatístico. Um modelo com 800 vitórias e 200 derrotas também tem taxa de 80%, e obviamente devemos confiar mais no segundo.

Usamos o Wilson Score Lower Bound — o mesmo algoritmo que o Reddit usa para classificar comentários. Ele penaliza tamanhos de amostra pequenos, então um modelo precisa de tanto alta preferência quanto dados suficientes para subir no ranking.

É por isso que você verá uma fileira de pequenos pontos de confiança ao lado de cada modelo: ●●●●○ significa "temos muitos dados sobre este." ●●○○○ significa "trate o número com cautela." Não estamos escondendo a incerteza — estamos mostrando para você.

Passo 3: Nunca dizemos os números brutos

Aqui traçamos uma linha de privacidade. O seletor mostra a taxa de vitória e o nível de confiança, mas nunca as contagens absolutas. Um modelo pode ter sido escolhido 1.200 vezes ou 12.000 vezes — você verá "●●●●●" para ambos, porque expor as contagens exatas vazaria quantos usuários temos e o que estão fazendo.

Esta é uma troca deliberada. Queremos que você confie na avaliação sem nos transformarmos em um dashboard de analytics que qualquer um pode raspar.

Como a "Velocidade" funciona

Qualidade é um número. Velocidade precisa ser medida a partir de requisições reais, não de benchmarks alegados pelos fornecedores.

Cada mensagem que servimos carrega um blob de metadados com o time-to-first-token (TTFT) real e os tokens por segundo daquela resposta. Agregamos os ~50 mais recentes por modelo e mostramos a mediana (p50) — não a média.

Por que mediana? Porque médias mentem quando há outliers. Se um modelo é normalmente rápido mas teve três noites lentas semana passada, a média vai dizer que o modelo é lento. A mediana te diz o que você tipicamente vai experimentar, e é com isso que você realmente se importa.

Se você passar o mouse sobre o indicador de velocidade, também verá o p95 — a latência no pior caso. Alguns modelos têm distribuições de latência muito apertadas, outros têm caudas longas. Agora você pode ver ambas.

Por que a barra de velocidade usa escala logarítmica

Uma resposta de 1 segundo parece muito mais rápida do que uma de 5 segundos. Uma resposta de 5 segundos parece quase igual a uma de 6 segundos. A percepção humana de latência é logarítmica, então a barra de velocidade é mapeada em uma escala logarítmica entre [500ms, 20s].

Isso significa que um modelo de raciocínio que leva 18 segundos para o primeiro token (sim, isso é dado real) aparece com uma barra de velocidade praticamente vazia — não como uma versão ligeiramente mais curta de um modelo de 8 segundos. Porque na sua sensação, essas duas experiências são completamente diferentes.

O que não fazemos deliberadamente

Queremos ser específicos sobre as coisas que evitamos:

Sem caixa-preta de "Recomendado para você". A ordenação padrão são apenas os dados: por Wilson Score, decrescente. Modelos Pro flutuam para o topo apenas porque usuários Pro pagaram por eles, não porque os impulsionamos manualmente. Dentro de Pro e dentro de Free, a ordem é puramente conquistada.
Sem badges falsos de "Novo e melhorado". Um modelo só recebe a tag NEW se foi adicionado à plataforma nos últimos 14 dias. Depois disso o badge cai automaticamente — nenhum humano pode mantê-lo fixado.
Sem ranking dirigido por parceiros. Não aceitamos pagamento de nenhum provedor de IA por posicionamento. Se a OpenAI ou Anthropic lançasse amanhã um modelo que ficasse em último em nossos duelos, ele estaria no fundo da lista. (E honestamente, lançaríamos mesmo assim e deixaríamos os dados falarem.)
Sem credenciar o modelo mais caro. Nosso modelo Pro mais caro nem sempre é o modelo de maior qualidade na plataforma agora. Mostramos isso. Não escondemos.

O bucket "Avaliando"

Quando um modelo é totalmente novo, ele não tem dados A/B suficientes para obter um Wilson Score significativo. Colar uma taxa de vitória de 50% nele seria enganoso.

Então novos modelos vão para um bucket Avaliando no topo do seletor. Eles mostram sua velocidade (que podemos medir imediatamente) mas dizem "Coletando dados" onde estaria o número de qualidade. Uma vez que acumulam duelos suficientes, eles graduam automaticamente para a lista classificada principal.

Você sempre saberá se a avaliação que está olhando é estatisticamente significativa ou apenas um placeholder.

Por que isso importa

O espaço de companheiros de IA está cheio de plataformas que falam muito sobre "os melhores modelos" sem nunca te mostrar um único número. Algumas estão vendendo modelos mais baratos com preços premium. Algumas te roteiam para o modelo que está em promoção este mês. Algumas só chutam.

Escolhemos um padrão diferente: dizer a verdade, mostrar a matemática, deixar você decidir.

Você não precisa confiar em nós quando dizemos que um modelo é bom. Você pode olhar a barra, ver os pontos de confiança, passar o mouse para o p95 e tirar suas próprias conclusões. Se você acha que os dados estão errados, a comparação de respostas duplas ainda está rodando nos seus chats — e seu próximo voto de preferência vai mover o número.

Um lembrete: todas as APIs oficiais

Este também é um bom momento para repetir algo que já dissemos: cada modelo no seletor é servido através da API oficial do provedor. Sem cópias com fine-tune. Sem substitutos quantizados. Sem modelos misteriosos "equivalentes ao GPT-4" de terceiros.

Se o seletor diz "Claude Opus 4.6", você está conversando com Claude Opus 4.6. Se diz "DeepSeek V3.2", você está conversando com DeepSeek V3.2. As pontuações de qualidade são significativas precisamente porque os modelos são reais.

O que vem depois

O seletor é a parte visível. Há mais que queremos fazer com esses dados:

Recomendações por personagem. Modelos diferentes se destacam em arquétipos de personagem diferentes. Nossos dados de preferência devem nos permitir sugerir "usuários tendem a preferir o modelo X para este tipo de personagem."
Rankings personalizados. Agora todos veem o mesmo ranking global. Eventualmente seus modelos preferidos devem flutuar para o topo, baseados nas suas próprias escolhas passadas.
Alertas ao vivo de saúde de modelos. Se a API de um provedor tem um dia ruim e o TTFT dispara, o seletor deve refletir isso dentro da hora, não no dia seguinte.

Mas tudo isso requer uma fundação de dados honestos. Essa fundação é o que estamos lançando hoje.

Abra o seletor de modelos no seu próximo chat e dê uma olhada. Se você votou em comparações de respostas duplas, suas digitais estão em cada número que você vê.

Experimentar o novo seletor →