Echte Daten, kein Marketing: Wie wir KI-Modelle wirklich bewerten

Ein Versprechen vom November

In unserem Beitrag zum Dual-Response-Vergleich haben wir dich um etwas Kleines gebeten: Wenn du zwei KI-Antworten nebeneinander gesehen hast, wähl die aus, die du bevorzugst.

Wir haben versprochen, dass diese Entscheidungen zählen würden. Wir haben gesagt, deine Präferenzen würden uns helfen, bessere Modelle zu empfehlen, unser Routing zu optimieren und "Funktionen zu bauen, die mit echten Nutzerpräferenzen übereinstimmen."

Heute veröffentlichen wir das erste Feature, das direkt auf diesen Daten aufbaut – und wir möchten dir genau erklären, wie es funktioniert, denn Transparenz ist hier der ganze Punkt.

Der neue Modell-Picker

Öffne das Modell-Dropdown in einem beliebigen Chat. Du wirst feststellen, dass es keine flache Liste von Namen mehr ist. Jedes Modell hat jetzt zwei sichtbare Metriken:

Qualität: wie oft du und andere Nutzer dieses Modell in echten A/B-Vergleichen bevorzugt habt
Geschwindigkeit: wie schnell es tatsächlich antwortet, basierend auf den letzten paar hundert Nachrichten

Das war's. Keine Marketing-Badges. Keine "Editor's Choice". Keine "Premium"-Sticker, die wir uns ausgedacht haben, um dich zum Upgrade zu bewegen. Nur zwei Zahlen, beide aus echten Nutzungsdaten.

Wie "Qualität" funktioniert (und warum es anders ist)

Die meisten KI-Plattformen bewerten Modelle auf eine von drei Arten:

Hersteller-PR: "Anthropic hat ein neues Modell veröffentlicht, also pushen wir es."
Bauchgefühl: "Unser Team hat es eine Stunde lang getestet und mochte es."
Wer am meisten zahlt: "Unser Partner gibt uns diesen Monat einen Kickback."

Keine davon sagt dir, ob ein Modell tatsächlich gut für Rollenspiele ist – und genau dafür bist du hier.

So machen wir es stattdessen:

Schritt 1: Echte A/B-Duelle

Jedes Mal, wenn du den Dual-Response-Vergleich gesehen und eine Antwort gewählt hast, haben wir das aufgezeichnet. Gleicher Prompt, gleicher Charakter, gleicher Kontext – nur das Modell hat sich geändert. Deine Wahl war das einzige Signal.

Nach Monaten haben wir Zehntausende von Head-to-Head-Begegnungen über jedes aktive Modell auf der Plattform.

Schritt 2: Wilson Score, nicht naive Gewinnrate

Hier kommt ein subtiles, aber wichtiges Detail. Wenn ein Modell 4 Siege und 1 Niederlage hat, beträgt seine naive Gewinnrate 80%. Klingt großartig. Aber 5 Stichproben sind statistisches Rauschen. Ein Modell mit 800 Siegen und 200 Niederlagen hat ebenfalls eine Gewinnrate von 80% – und dem solltest du offensichtlich mehr vertrauen.

Wir verwenden den Wilson Score Lower Bound – denselben Algorithmus, mit dem Reddit Kommentare bewertet. Er bestraft kleine Stichproben, sodass ein Modell sowohl hohe Präferenz als auch genug Daten braucht, um im Ranking aufzusteigen.

Deshalb siehst du neben jedem Modell eine Reihe kleiner Vertrauenspunkte: ●●●●○ bedeutet "wir haben viele Daten zu diesem Modell." ●●○○○ bedeutet "behandle die Zahl mit Vorsicht." Wir verstecken die Unsicherheit nicht – wir zeigen sie dir.

Schritt 3: Wir nennen niemals die absoluten Zahlen

Hier ziehen wir eine Datenschutzgrenze. Der Picker zeigt die Gewinnrate und das Vertrauensniveau, aber niemals die absoluten Zahlen. Ein Modell wurde vielleicht 1.200 Mal oder 12.000 Mal gewählt – du siehst in beiden Fällen "●●●●●", denn die exakte Zahl preiszugeben würde verraten, wie viele Nutzer wir haben und was sie tun.

Das ist ein bewusster Kompromiss. Wir möchten, dass du der Bewertung vertraust, ohne dass wir uns in ein Analyse-Dashboard verwandeln, das jeder scrapen kann.

Wie "Geschwindigkeit" funktioniert

Qualität ist eine Zahl. Geschwindigkeit muss aus echten Anfragen gemessen werden, nicht aus herstellerangegebenen Benchmarks.

Jede Nachricht, die wir bedienen, trägt einen Metadaten-Block mit der tatsächlichen Time-to-First-Token (TTFT) und Tokens pro Sekunde dieser Antwort. Wir aggregieren die letzten ~50 davon pro Modell und zeigen den Median (p50) – nicht den Durchschnitt.

Warum den Median? Weil Durchschnitte lügen, wenn es Ausreißer gibt. Wenn ein Modell normalerweise schnell ist, aber letzte Woche drei langsame Nächte hatte, wird der Durchschnitt sagen, das Modell sei langsam. Der Median sagt dir, was du typischerweise erleben wirst – und das ist es, was wirklich zählt.

Wenn du den Geschwindigkeitsindikator hoverst, siehst du auch den p95 – die Worst-Case-Latenz. Manche Modelle haben sehr enge Latenzverteilungen, andere lange Schwänze. Jetzt kannst du beides sehen.

Warum die Geschwindigkeitsleiste eine logarithmische Skala verwendet

Eine 1-Sekunden-Antwort fühlt sich viel schneller an als eine 5-Sekunden-Antwort. Eine 5-Sekunden-Antwort fühlt sich fast genauso an wie eine 6-Sekunden-Antwort. Die menschliche Latenzwahrnehmung ist logarithmisch, also ist die Geschwindigkeitsleiste auf einer logarithmischen Skala über [500ms, 20s] abgebildet.

Das bedeutet, ein Reasoning-Modell, das 18 Sekunden für das erste Token braucht (ja, das sind echte Daten), erscheint mit einer praktisch leeren Geschwindigkeitsleiste – nicht als leicht kürzere Version eines 8-Sekunden-Modells. Denn aus deinem Bauchgefühl heraus fühlen sich diese beiden Erfahrungen völlig unterschiedlich an.

Was wir bewusst nicht tun

Wir möchten konkret benennen, was wir vermeiden:

Keine Black-Box "Empfohlen für dich". Die Standardsortierung sind einfach die Daten: nach Wilson Score, absteigend. Pro-Modelle landen oben, weil Pro-Nutzer dafür bezahlt haben, nicht weil wir sie manuell hochgepusht haben. Innerhalb von Pro und Free ist die Reihenfolge rein verdient.
Keine gefälschten "Neu und verbessert"-Badges. Ein Modell bekommt das NEW-Tag nur, wenn es in den letzten 14 Tagen zur Plattform hinzugefügt wurde. Danach fällt der Badge automatisch ab – kein Mensch kann ihn dauerhaft anpinnen.
Kein partnergetriebenes Ranking. Wir nehmen kein Geld von KI-Anbietern für die Platzierung. Wenn OpenAI oder Anthropic morgen ein Modell veröffentlichen, das in unseren Duellen am schlechtesten abschneidet, würde es ganz unten in der Liste stehen. (Und ehrlich gesagt würden wir es trotzdem ausliefern und die Daten sprechen lassen.)
Kein "das teuerste Modell ist das beste"-Mantra. Unser teuerstes Pro-Modell ist derzeit nicht das hochwertigste Modell auf der Plattform. Wir zeigen dir das. Wir verstecken es nicht.

Der "Evaluierung"-Bucket

Wenn ein Modell brandneu ist, hat es nicht genug A/B-Daten für einen sinnvollen Wilson Score. Eine 50%-Gewinnrate dranzuschreiben wäre irreführend.

Also kommen neue Modelle in einen Evaluierung-Bucket oben im Picker. Sie zeigen ihre Geschwindigkeit (die wir sofort messen können), aber sagen "Daten werden gesammelt", wo die Qualitätszahl wäre. Sobald sie genug Duelle gesammelt haben, graduieren sie automatisch in die Hauptrangliste.

Du wirst immer wissen, ob die Bewertung, die du dir ansiehst, statistisch aussagekräftig ist oder nur ein Platzhalter.

Warum das wichtig ist

Der KI-Begleiter-Bereich ist voll von Plattformen, die viel über "die besten Modelle" reden, ohne dir jemals eine einzige Zahl zu zeigen. Manche verkaufen billigere Modelle zu Premium-Preisen. Manche routen dich zu dem Modell, das diesen Monat im Angebot ist. Manche raten einfach.

Wir wählen einen anderen Standardwert: dir die Wahrheit sagen, dir die Mathematik zeigen, dich entscheiden lassen.

Du musst uns nicht glauben, wenn wir sagen, ein Modell sei gut. Du kannst die Leiste anschauen, die Vertrauenspunkte sehen, für den p95 hovern und dir deine eigene Meinung bilden. Wenn du denkst, die Daten sind falsch, läuft der Dual-Response-Vergleich immer noch in deinen Chats – und deine nächste Präferenzabstimmung wird die Zahl bewegen.

Eine Erinnerung: Alles offizielle APIs

Das ist auch ein guter Moment, um etwas zu wiederholen, das wir schon gesagt haben: Jedes Modell im Picker wird über die offizielle Anbieter-API bereitgestellt. Keine feinabgestimmten Knock-offs. Keine quantisierten Stand-ins. Keine "GPT-4-äquivalenten" Mystery-Modelle von Drittanbietern.

Wenn der Picker "Claude Opus 4.6" sagt, sprichst du mit Claude Opus 4.6. Wenn er "DeepSeek V3.2" sagt, sprichst du mit DeepSeek V3.2. Die Qualitätswerte sind deshalb aussagekräftig, weil die Modelle echt sind.

Was als Nächstes kommt

Der Picker ist der sichtbare Teil. Es gibt mehr, was wir mit diesen Daten machen wollen:

Charakter-spezifische Empfehlungen. Verschiedene Modelle sind in verschiedenen Charakter-Archetypen stark. Unsere Präferenzdaten sollten es uns ermöglichen vorzuschlagen "Nutzer bevorzugen Modell X für diese Art von Charakter."
Personalisierte Rankings. Aktuell sehen alle dasselbe globale Ranking. Irgendwann sollten deine bevorzugten Modelle nach oben schwimmen, basierend auf deinen eigenen vergangenen Entscheidungen.
Live-Modell-Health-Alerts. Wenn die API eines Anbieters einen schlechten Tag hat und TTFT in die Höhe schießt, sollte der Picker das innerhalb der Stunde widerspiegeln, nicht erst am nächsten Tag.

Aber all das erfordert ein Fundament aus ehrlichen Daten. Dieses Fundament veröffentlichen wir heute.

Öffne den Modell-Picker in deinem nächsten Chat und schau dir das an. Wenn du in Dual-Response-Vergleichen abgestimmt hast, sind deine Fingerabdrücke auf jeder Zahl, die du siehst.

Den neuen Picker ausprobieren →