Dati reali, non marketing: come classifichiamo davvero i modelli AI

Una promessa fatta a novembre

Nel nostro post sul confronto a doppia risposta, ti abbiamo chiesto qualcosa di piccolo: quando vedevi due risposte AI affiancate, scegli quella che preferisci.

Abbiamo promesso che quelle scelte sarebbero contate. Abbiamo detto che le tue preferenze ci avrebbero aiutato a consigliare modelli migliori, ottimizzare il nostro routing e "costruire funzionalità in linea con le vere preferenze degli utenti."

Oggi rilasciamo la prima funzionalità costruita direttamente su quei dati — e vogliamo spiegarti esattamente come funziona, perché la trasparenza è il punto centrale.

Il nuovo selettore di modelli

Apri il menu a tendina dei modelli in qualsiasi chat. Noterai che non è più un elenco piatto di nomi. Ogni modello ora ha due metriche visibili:

Qualità: quante volte tu e altri utenti avete preferito questo modello in confronti A/B reali
Velocità: quanto velocemente risponde davvero, basato sulle ultime centinaia di messaggi

Tutto qui. Niente badge di marketing. Niente "Scelta dell'editor". Niente adesivi "Premium" inventati per spingerti all'upgrade. Solo due numeri, entrambi derivati da dati di utilizzo reali.

Come funziona la "Qualità" (e perché è diversa)

La maggior parte delle piattaforme AI classifica i modelli in uno di questi tre modi:

PR del fornitore: "Anthropic ha rilasciato un nuovo modello, quindi lo promuoviamo."
Sensazioni interne: "Il nostro team l'ha provato per un'ora e gli è piaciuto."
Chi paga di più: "Il nostro partner ci dà una commissione questo mese."

Nessuna di queste ti dice se un modello è davvero buono per il roleplay — che è il motivo per cui sei qui.

Ecco cosa facciamo invece:

Passo 1: Veri duelli A/B

Ogni volta che vedevi il confronto a doppia risposta e ne sceglievi una, registravamo quella scelta. Stesso prompt, stesso personaggio, stesso contesto — solo il modello cambiava. La tua scelta era l'unico segnale.

Dopo mesi di questo, abbiamo decine di migliaia di confronti diretti su ogni modello attivo della piattaforma.

Passo 2: Wilson Score, non tasso di vittoria ingenuo

Ecco un dettaglio sottile ma importante. Se un modello ha 4 vittorie e 1 sconfitta, il suo tasso di vittoria ingenuo è dell'80%. Sembra ottimo. Ma 5 campioni sono rumore statistico. Un modello con 800 vittorie e 200 sconfitte ha anche un tasso dell'80%, e ovviamente dobbiamo fidarci di più del secondo.

Usiamo il Wilson Score Lower Bound — lo stesso algoritmo che Reddit usa per classificare i commenti. Penalizza i campioni piccoli, quindi un modello ha bisogno sia di alta preferenza che di abbastanza dati per salire in classifica.

Ecco perché vedi una fila di piccoli punti di confidenza accanto a ogni modello: ●●●●○ significa "abbiamo molti dati su questo." ●●○○○ significa "tratta il numero con cautela." Non stiamo nascondendo l'incertezza — te la mostriamo.

Passo 3: Non ti diciamo mai i numeri grezzi

Qui tracciamo una linea sulla privacy. Il selettore mostra il tasso di vittoria e il livello di confidenza, ma mai i conteggi assoluti. Un modello potrebbe essere stato scelto 1.200 volte o 12.000 volte — vedrai "●●●●●" per entrambi, perché esporre i conteggi esatti rivelerebbe quanti utenti abbiamo e cosa stanno facendo.

È un compromesso deliberato. Vogliamo che ti fidi della valutazione senza trasformarci in una dashboard di analytics che chiunque può raschiare.

Come funziona la "Velocità"

La qualità è un numero. La velocità deve essere misurata da richieste reali, non da benchmark dichiarati dai fornitori.

Ogni messaggio che serviamo porta un blob di metadati con il time-to-first-token (TTFT) reale e i token al secondo di quella risposta. Aggreghiamo i ~50 più recenti per modello e mostriamo la mediana (p50) — non la media.

Perché la mediana? Perché le medie mentono quando ci sono outlier. Se un modello è normalmente veloce ma ha avuto tre nottate lente la settimana scorsa, la media dirà che il modello è lento. La mediana ti dice cosa tipicamente sperimenterai, ed è questo che ti interessa davvero.

Se passi il mouse sull'indicatore di velocità, vedrai anche il p95 — la latenza nel caso peggiore. Alcuni modelli hanno distribuzioni di latenza molto strette, altri hanno code lunghe. Ora puoi vedere entrambe.

Perché la barra della velocità usa una scala logaritmica

Una risposta di 1 secondo sembra molto più veloce di una di 5 secondi. Una risposta di 5 secondi sembra quasi uguale a una di 6 secondi. La percezione umana della latenza è logaritmica, quindi la barra della velocità è mappata su una scala logaritmica tra [500ms, 20s].

Questo significa che un modello di ragionamento che impiega 18 secondi per il primo token (sì, è un dato reale) appare con una barra della velocità praticamente vuota — non come una versione leggermente più corta di un modello da 8 secondi. Perché nelle tue sensazioni, quelle due esperienze sono completamente diverse.

Cosa non facciamo deliberatamente

Vogliamo essere precisi su cosa evitiamo:

Niente black-box "Consigliato per te". L'ordinamento di default sono solo i dati: per Wilson Score, decrescente. I modelli Pro galleggiano in cima solo perché gli utenti Pro hanno pagato per loro, non perché li abbiamo spinti manualmente. All'interno di Pro e all'interno di Free, l'ordine è puramente meritato.
Niente badge falsi "Nuovo e migliorato". Un modello riceve il tag NEW solo se è stato aggiunto alla piattaforma negli ultimi 14 giorni. Dopo di che il badge cade automaticamente — nessun umano può tenerlo fissato.
Niente classifiche guidate dai partner. Non accettiamo pagamenti da nessun fornitore di IA per il posizionamento. Se OpenAI o Anthropic rilasciasse domani un modello che si classifica ultimo nei nostri duelli, sarebbe in fondo alla lista. (E onestamente, lo rilasceremmo lo stesso e lasceremmo parlare i dati.)
Niente "il più costoso è il migliore". Il nostro modello Pro più costoso non è sempre il modello di più alta qualità sulla piattaforma in questo momento. Te lo mostriamo. Non lo nascondiamo.

Il bucket "In valutazione"

Quando un modello è completamente nuovo, non ha abbastanza dati A/B per ottenere un Wilson Score significativo. Schiaffargli un tasso di vittoria del 50% sarebbe fuorviante.

Quindi i nuovi modelli vanno in un bucket In valutazione in cima al selettore. Mostrano la loro velocità (che possiamo misurare immediatamente) ma dicono "Raccolta dati in corso" dove ci sarebbe il numero di qualità. Una volta accumulati abbastanza duelli, si diplomano automaticamente nella lista classificata principale.

Saprai sempre se la valutazione che stai guardando è statisticamente significativa o solo un placeholder.

Perché tutto questo conta

Lo spazio degli AI companion è pieno di piattaforme che parlano molto di "modelli migliori" senza mai mostrarti un solo numero. Alcune stanno spacciando modelli più economici a prezzi premium. Alcune ti instradano al modello che è in offerta questo mese. Alcune semplicemente tirano a indovinare.

Scegliamo un default diverso: dirti la verità, mostrarti la matematica, lasciarti decidere.

Non devi fidarti di noi quando diciamo che un modello è buono. Puoi guardare la barra, vedere i punti di confidenza, passare il mouse per il p95 e farti la tua opinione. Se pensi che i dati siano sbagliati, il confronto a doppia risposta è ancora attivo nelle tue chat — e il tuo prossimo voto di preferenza muoverà il numero.

Un promemoria: tutte API ufficiali

Questo è anche un buon momento per ripetere qualcosa che abbiamo già detto: ogni modello nel selettore è servito attraverso l'API ufficiale del fornitore. Niente cloni con fine-tuning. Niente sostituti quantizzati. Niente modelli misteriosi "equivalenti a GPT-4" da terze parti.

Se il selettore dice "Claude Opus 4.6", stai parlando con Claude Opus 4.6. Se dice "DeepSeek V3.2", stai parlando con DeepSeek V3.2. I punteggi di qualità sono significativi proprio perché i modelli sono reali.

Cosa viene dopo

Il selettore è la parte visibile. C'è altro che vogliamo fare con questi dati:

Raccomandazioni per personaggio. Modelli diversi eccellono in diversi archetipi di personaggio. I nostri dati di preferenza dovrebbero permetterci di suggerire "gli utenti tendono a preferire il modello X per questo tipo di personaggio."
Classifiche personalizzate. In questo momento tutti vedono la stessa classifica globale. Alla fine i tuoi modelli preferiti dovrebbero galleggiare in cima, basati sulle tue scelte passate.
Avvisi live sulla salute dei modelli. Se l'API di un fornitore ha una brutta giornata e il TTFT schizza in alto, il selettore dovrebbe rifletterlo entro l'ora, non il giorno dopo.

Ma tutto questo richiede una fondamenta di dati onesti. Quella fondamenta è quello che stiamo rilasciando oggi.

Apri il selettore di modelli nella tua prossima chat e dai un'occhiata. Se hai votato nei confronti a doppia risposta, le tue impronte sono su ogni numero che vedi.

Prova il nuovo selettore →