Blinde A/B-Gewinnrate
Wenn Nutzer zwei Antworten vergleichen, ohne zu wissen, welches Modell welche geschrieben hat, zeichnen wir die Wahl auf. Gewinnraten stammen aus diesen blinden Duellen, bewertet mit Wilson-Konfidenzintervallen.
Modelle von acht Anbietern, jedes mit Qualitätswerten aus blinden A/B-Tests, Like-Raten der Nutzer und Live-Geschwindigkeitsstatistiken — direkt im Auswahlmenü. Wechsle jederzeit, auch mitten im Gespräch.
DeepSeek V4 Flash
DeepSeek
GLM 5
Z.AI
Llama 3.1 8B
Meta
Unsere Haltung
Jede Plattform sagt, ihre KI sei großartig. Wir zeigen dir lieber die Gewinnraten und lassen die Modelle für sich selbst argumentieren.
— Reverie-Team
Transparent als Standard
Vier Metriken, gemessen aus echten Gesprächen auf Reverie — keine Anbieter-Benchmarks aus einer Pressemitteilung.
Wenn Nutzer zwei Antworten vergleichen, ohne zu wissen, welches Modell welche geschrieben hat, zeichnen wir die Wahl auf. Gewinnraten stammen aus diesen blinden Duellen, bewertet mit Wilson-Konfidenzintervallen.
Jeder Daumen hoch und runter auf echte Antworten fließt in eine Like-Rate pro Modell — so siehst du, wie jedes Modell bei echten Roleplayern ankommt.
Wie lange es dauert, bis das Modell zu antworten beginnt — Durchschnitt, Median und p95, gemessen am Live-Traffic auf unserer eigenen Infrastruktur.
Die rohe Generierungsgeschwindigkeit, sobald die Antwort fließt. Schnelle Modelle halten lange Szenen in Bewegung — und du siehst genau, welche das sind.
Jeder Qualitätswert trägt ein Konfidenzniveau von 1–5 Sternen basierend auf der Stichprobengröße — du weißt also, wie belastbar eine Zahl ist, bevor du ihr vertraust.
Neue Modelle starten im Status 'in Bewertung' — wir zeigen sie ohne Qualitätsaussagen, bis sich genug blinde Vergleiche angesammelt haben, um etwas Ehrliches zu sagen.
Das aktuelle Aufgebot
Live aus unserem Modellregister gelesen — ändert sich das Aufgebot, ändert sich diese Tabelle mit.
| Modell | Kontext | Reasoning | Kosten |
|---|---|---|---|
DeepSeek V3.2Basis DeepSeek | 164K | — | 0.5× Credits |
DeepSeek V4 FlashBasis DeepSeek | 164K | Optional | 0.3× Credits |
DeepSeek V4 ProBasis DeepSeek | 164K | Optional | 0.7× Credits |
DeepSeek R1Basis DeepSeek | 164K | Immer an | 1× Credits |
MiMo V2 FlashBasis Xiaomi | 262K | Optional | 0.3× Credits |
MiMo V2.5Basis Xiaomi | 262K | Optional | 0.3× Credits |
GLM 4.5 AirBasis Z.AI | 131K | Optional | 0.5× Credits |
GLM 4.7Basis Z.AI | 200K | Optional | 1× Credits |
GLM 5Fortgeschritten Z.AI | 200K | Optional | 1.3× Credits |
Gemini 3 Flash PreviewFortgeschritten | 1M | — | 1.2× Credits |
Llama 3.1 8BBasis Meta | 131K | — | Kostenlos |
Credit-Multiplikatoren sind relativ zum Basis-Credit-Tarif. Bild- und Videogenerierungsmodelle sind separat im Chat verfügbar.
Was du bekommst
Modelle zu wechseln ist hier kein Easter Egg im Einstellungsmenü. So ist das Produkt gedacht.
Wechsle das Modell zwischen Nachrichten, ohne den Faden zu verlieren. Hol ein schärferes Modell für die entscheidende Szene, geh für Smalltalk wieder zurück.
Antwort gefällt dir nicht? Würfle sie mit einem anderen Modell neu und behalte die Version, die sich besser liest. Diese Entscheidungen fließen in die Gewinnraten-Statistik.
Creator können für jeden Charakter ein bevorzugtes Modell festlegen, damit er mit der Engine spricht, für die er geschrieben wurde. Deine eigene Wahl hat immer Vorrang.
Ein fähiges kostenloses Modell bleibt bei null Credits im Menü, mit Fair-Use-Limits — keine Credits mehr zu haben heißt nie, kein Gespräch mehr zu haben.
Jedes Modell zeigt seinen Credit-Multiplikator — von 0.3× bei Budget-Modellen bis 2× bei Frontier-Modellen. Kosten sind eine Entscheidung, die du triffst, keine Überraschung auf der Rechnung.
Reine Reasoning-Modelle für verschachtelte Plots und hybride, die nur auf Wunsch nachdenken. Wähl das Gehirn, das zur Szene passt.
Häufige Fragen
Die meisten Plattformen wählen ein Modell, geben ihm eine Marke und erzählen dir, wie wunderbar es ist. Reverie betreibt viele und veröffentlicht, wie sie tatsächlich gegeneinander abschneiden — im Produkt, dort wo du wählst.
Qualitätswerte entstehen, wenn Nutzer zwischen zwei anonymen Antworten wählen. Weder Label noch Anbieter sind beim Vergleich sichtbar — die Zahlen messen das Schreiben, nicht die Marke.
Über aggregierte Werte hinaus zeigt die Auswahl direkte Duelldaten — welches Modell welches schlägt, und um wie viel, in den Vergleichen, die Nutzer tatsächlich durchgeführt haben.
Ein Wert aus vierzig Vergleichen ist kein Wert aus viertausend. Jede Metrik trägt ein Konfidenzniveau von 1–5 Sternen, abgeleitet aus der Stichprobengröße und neben der Zahl angezeigt.
Zeit bis zum ersten Token und Tokens pro Sekunde werden aus Produktionsgesprächen gemessen — Durchschnitt, Median und p95 — nicht aus einem Anbieter-Datenblatt zitiert.
Verschiedene Szenen wollen verschiedene Gehirne. Eine lange Slow-Burn-Romanze, ein taktischer Kriegsrat und ein schneller komödiantischer Schlagabtausch haben nicht dasselbe ideale Modell — also solltest du nicht an eines gebunden sein.
Chat-Modelle von DeepSeek, Google, Z.AI, Xiaomi, Meta und mehr, mit Kontextfenstern von 131K bis zu einer Million Tokens, alles hinter einer Oberfläche und einem Credit-Guthaben.
Modelle sind einzeln bepreist, von 0.3× bis 2× des Basis-Credit-Tarifs, und der Multiplikator steht auf der Modellkarte. Günstigere Modelle für Alltagsszenen, Frontier-Modelle, wenn es zählt.
Dedizierte Reasoning-Modelle denken vor dem Schreiben für verschachtelte Plots; Hybridmodelle denken auf Abruf; multimodale Modelle können die Bilder lesen, die du in den Chat lädst.
Das kostenlose Modell bleibt unabhängig von deinem Guthaben verfügbar, mit Fair-Use-Limits — ein Boden unter jedem Gespräch, keine Testphase, die abläuft.
Wenn du bereit bist
Öffne die Modellauswahl in jedem Chat, sortiere nach den Zahlen und finde deinen Favoriten.