Wskaźnik wygranych w ślepych A/B
Gdy użytkownicy porównują dwie odpowiedzi, nie wiedząc, który model napisał którą, zapisujemy wybór. Wskaźniki wygranych pochodzą z tych ślepych starć, liczonych z przedziałami ufności Wilsona.
Modele od ośmiu dostawców, każdy z ocenami jakości ze ślepych testów A/B, wskaźnikiem polubień użytkowników i statystykami szybkości na żywo — prosto w selektorze. Przełączaj się w dowolnym momencie, także w trakcie rozmowy.
DeepSeek V4 Flash
DeepSeek
GLM 5
Z.AI
Llama 3.1 8B
Meta
Nasze stanowisko
Każda platforma mówi, że jej AI jest świetne. My wolimy pokazać wam wskaźniki wygranych i pozwolić modelom bronić się samym.
— Zespół Reverie
Przejrzystość domyślnie
Cztery metryki, mierzone na prawdziwych rozmowach w Reverie — a nie benchmarki dostawców przepisane z komunikatu prasowego.
Gdy użytkownicy porównują dwie odpowiedzi, nie wiedząc, który model napisał którą, zapisujemy wybór. Wskaźniki wygranych pochodzą z tych ślepych starć, liczonych z przedziałami ufności Wilsona.
Każdy kciuk w górę i w dół przy prawdziwych odpowiedziach składa się na wskaźnik polubień per model — widzisz, jak każdy model trafia do prawdziwych graczy roleplay.
Ile mija, zanim model zacznie odpowiadać — średnia, mediana i p95, mierzone z ruchu na żywo na naszej własnej infrastrukturze.
Surowa szybkość generowania, gdy odpowiedź już płynie. Szybkie modele utrzymują tempo długich scen — i dokładnie widzisz, które to są.
Każda statystyka jakości ma poziom ufności od 1 do 5 gwiazdek oparty na wielkości próby, więc wiesz, jak ugruntowana jest liczba, zanim jej zaufasz.
Nowe modele zaczynają w stanie „w ocenie” — pokazujemy je bez deklaracji jakości, dopóki nie zbierze się dość ślepych porównań, by powiedzieć coś uczciwie.
Aktualny skład
Czytane na żywo z naszego rejestru modeli — gdy skład się zmienia, ta tabela zmienia się razem z nim.
| Model | Kontekst | Rozumowanie | Koszt |
|---|---|---|---|
DeepSeek V3.2Podstawowy DeepSeek | 164K | — | 0.5× kredytów |
DeepSeek V4 FlashPodstawowy DeepSeek | 164K | Opcjonalne | 0.3× kredytów |
DeepSeek V4 ProPodstawowy DeepSeek | 164K | Opcjonalne | 0.7× kredytów |
DeepSeek R1Podstawowy DeepSeek | 164K | Zawsze włączone | 1× kredytów |
MiMo V2 FlashPodstawowy Xiaomi | 262K | Opcjonalne | 0.3× kredytów |
MiMo V2.5Podstawowy Xiaomi | 262K | Opcjonalne | 0.3× kredytów |
GLM 4.5 AirPodstawowy Z.AI | 131K | Opcjonalne | 0.5× kredytów |
GLM 4.7Podstawowy Z.AI | 200K | Opcjonalne | 1× kredytów |
GLM 5Zaawansowany Z.AI | 200K | Opcjonalne | 1.3× kredytów |
Gemini 3 Flash PreviewZaawansowany | 1M | — | 1.2× kredytów |
Llama 3.1 8BPodstawowy Meta | 131K | — | Darmowy |
Mnożniki kredytów są względem bazowej stawki kredytowej. Modele generowania obrazów i wideo są dostępne osobno w czacie.
Co dostajesz
Zmiana modelu nie jest tu ukrytą opcją w menu ustawień. Tak ten produkt ma być używany.
Zmieniaj modele między wiadomościami bez gubienia wątku. Wprowadź bystrzejszy model na kluczową scenę, wróć do tańszego przy pogawędce.
Nie podoba ci się odpowiedź? Wygeneruj ją ponownie innym modelem i zostaw wersję, która czyta się lepiej. Te wybory zasilają statystyki wygranych.
Twórcy mogą ustawić preferowany model dla każdej postaci, żeby mówiła silnikiem, pod który została napisana. Twój własny wybór zawsze ma pierwszeństwo.
Sprawny darmowy model pozostaje w menu za zero kredytów, z limitami fair-use — koniec kredytów nigdy nie oznacza końca rozmowy.
Każdy model pokazuje swój mnożnik kredytów — od budżetowych 0.3× po flagowe 2× — więc koszt to twój wybór, a nie niespodzianka na rachunku.
Czyste modele rozumujące do zawiłych fabuł i hybrydowe, które myślą tylko na żądanie. Wybierz mózg pasujący do sceny.
Częste pytania
Większość platform wybiera jeden model, brandują go i mówią, że jest cudowny. Reverie uruchamia ich wiele i publikuje, jak naprawdę wypadają w starciu ze sobą — w produkcie, tam gdzie wybierasz.
Oceny jakości pochodzą z wyborów użytkowników między dwiema anonimowymi odpowiedziami. Podczas porównania nie widać ani nazwy, ani dostawcy, więc liczby mierzą pisanie, a nie markę.
Poza zbiorczymi wynikami selektor pokazuje dane bezpośrednich pojedynków — który model wygrywa z którym i o ile, w porównaniach faktycznie przeprowadzonych przez użytkowników.
Wynik z czterdziestu porównań to nie wynik z czterech tysięcy. Każda metryka ma poziom ufności od 1 do 5 gwiazdek wyliczony z wielkości próby i wyświetlany obok liczby.
Czas do pierwszego tokenu i tokeny na sekundę są mierzone z produkcyjnych rozmów — średnia, mediana i p95 — a nie cytowane z karty katalogowej dostawcy.
Różne sceny potrzebują różnych mózgów. Długi, powolny romans, narada wojenna i szybka komediowa wymiana zdań nie mają tego samego idealnego modelu — więc nie powinien cię ograniczać jeden.
Modele czatu od DeepSeek, Google, Z.AI, Xiaomi, Meta i innych, z oknami kontekstu od 131K do miliona tokenów, wszystko za jednym interfejsem i jednym saldem kredytów.
Modele są wyceniane indywidualnie, od 0.3× do 2× bazowej stawki kredytowej, a mnożnik jest wydrukowany na karcie modelu. Tańsze modele do codziennych scen, flagowe, gdy to się liczy.
Dedykowane modele rozumujące myślą, zanim napiszą — do zawiłych fabuł; hybrydowe rozumują na żądanie; multimodalne potrafią czytać obrazy, które wgrywasz do czatu.
Darmowy model pozostaje dostępny niezależnie od salda, z limitami fair-use — to fundament pod każdą rozmową, a nie trial, który wygasa.
Kiedy będziesz gotowy
Otwórz selektor modeli w dowolnym czacie, posortuj po liczbach i znajdź swojego faworyta.