Prawdziwe dane, nie marketing: jak naprawdę oceniamy modele AI

Obietnica złożona w listopadzie

W naszym poście o porównaniu podwójnych odpowiedzi poprosiliśmy cię o coś małego: gdy widzisz dwie odpowiedzi AI obok siebie, wybierz tę, którą wolisz.

Obiecaliśmy, że te wybory będą miały znaczenie. Powiedzieliśmy, że twoje preferencje pomogą nam rekomendować lepsze modele, optymalizować nasze routowanie i "budować funkcje zgodne z prawdziwymi preferencjami użytkowników."

Dziś wypuszczamy pierwszą funkcję zbudowaną bezpośrednio na tych danych — i chcemy ci dokładnie wyjaśnić, jak ona działa, ponieważ transparentność jest tu sednem sprawy.

Nowy selektor modeli

Otwórz menu rozwijane modeli w dowolnym czacie. Zauważysz, że to już nie jest płaska lista nazw. Każdy model ma teraz dwie widoczne metryki:

Jakość: jak często ty i inni użytkownicy wybieraliście ten model w prawdziwych porównaniach A/B
Szybkość: jak szybko faktycznie odpowiada, na podstawie ostatnich kilkuset wiadomości

To wszystko. Żadnych marketingowych odznak. Żadnego "Wyboru redakcji". Żadnych zmyślonych naklejek "Premium", żeby cię skłonić do upgrade'u. Tylko dwie liczby, obie wyciągnięte z prawdziwych danych użytkowania.

Jak działa "Jakość" (i dlaczego jest inna)

Większość platform AI ocenia modele na jeden z trzech sposobów:

PR producenta: "Anthropic wypuścił nowy model, więc go promujemy."
Wewnętrzne odczucia: "Nasz zespół testował godzinę i spodobało się."
Kto najwięcej płaci: "Nasz partner daje prowizję w tym miesiącu."

Żaden z tych sposobów nie powie ci, czy model jest naprawdę dobry do roleplay — a po to tu jesteś.

Oto co robimy zamiast tego:

Krok 1: Prawdziwe pojedynki A/B

Za każdym razem, gdy widziałeś porównanie podwójnych odpowiedzi i wybierałeś jedną, zapisywaliśmy ten wybór. Ten sam prompt, ta sama postać, ten sam kontekst — zmieniał się tylko model. Twój wybór był jedynym sygnałem.

Po miesiącach mamy dziesiątki tysięcy bezpośrednich starć między każdą parą aktywnych modeli na platformie.

Krok 2: Wilson Score, nie naiwna stopa zwycięstw

Tu jest subtelny, ale ważny szczegół. Jeśli model ma 4 wygrane i 1 porażkę, jego naiwna stopa zwycięstw wynosi 80%. Brzmi świetnie. Ale 5 próbek to szum statystyczny. Model z 800 wygranych i 200 porażek ma też 80%, i oczywiście powinniśmy mu ufać bardziej.

Używamy Wilson Score Lower Bound — tego samego algorytmu, którego Reddit używa do oceny komentarzy. Karze małe próbki, więc model potrzebuje zarówno wysokiej preferencji, jak i wystarczającej ilości danych, żeby wspiąć się w rankingu.

Dlatego zobaczysz rząd małych kropek pewności obok każdego modelu: ●●●●○ oznacza "mamy mnóstwo danych o tym." ●●○○○ oznacza "traktuj liczbę z ostrożnością." Nie ukrywamy niepewności — pokazujemy ją.

Krok 3: Nigdy nie podajemy surowych liczb

Tu rysujemy linię prywatności. Selektor pokazuje stopę zwycięstw i poziom zaufania, ale nigdy bezwzględnych liczb. Model mógł zostać wybrany 1 200 lub 12 000 razy — w obu przypadkach zobaczysz "●●●●●", ponieważ ujawnienie dokładnych liczb zdradziłoby, ilu mamy użytkowników i co robią.

To zamierzony kompromis. Chcemy, żebyś ufał ocenie, nie zamieniając się w dashboard analityczny, który każdy może scrape'ować.

Jak działa "Szybkość"

Jakość to jedna liczba. Szybkość trzeba mierzyć z prawdziwych żądań, nie z benchmarków twierdzeń producentów.

Każda wiadomość, którą serwujemy, niesie blob metadanych z faktycznym time-to-first-token (TTFT) i tokenami na sekundę dla tej odpowiedzi. Agregujemy ~50 najnowszych na model i pokazujemy medianę (p50) — nie średnią.

Dlaczego mediana? Bo średnie kłamią, gdy są outliery. Jeśli model normalnie jest szybki, ale w zeszłym tygodniu miał trzy wolne noce, średnia powie ci, że model jest wolny. Mediana mówi, czego typowo doświadczysz, a właśnie o to ci chodzi.

Jeśli najedziesz na wskaźnik szybkości, zobaczysz też p95 — czyli opóźnienie w najgorszym przypadku. Niektóre modele mają bardzo wąskie rozkłady opóźnień, inne długie ogony. Teraz możesz zobaczyć oba.

Dlaczego pasek szybkości używa skali logarytmicznej

Odpowiedź 1 sekundowa wydaje się znacznie szybsza niż 5 sekundowa. Odpowiedź 5 sekundowa wydaje się prawie taka sama jak 6 sekundowa. Ludzkie postrzeganie opóźnienia jest logarytmiczne, więc pasek szybkości jest odwzorowany na skali logarytmicznej w zakresie [500ms, 20s].

To znaczy, że model rozumowania, który potrzebuje 18 sekund na pierwszy token (tak, to prawdziwe dane), pojawia się z praktycznie pustym paskiem szybkości — nie jako trochę krótsza wersja modelu 8-sekundowego. Bo w twoim wewnętrznym odczuciu te dwa doświadczenia są kompletnie różne.

Czego celowo nie robimy

Chcemy być konkretni co do rzeczy, których unikamy:

Brak czarnej skrzynki "Polecane dla ciebie". Domyślne sortowanie to po prostu dane: według Wilson Score, malejąco. Modele Pro pływają na górze tylko dlatego, że użytkownicy Pro za nie zapłacili, nie dlatego, że ręcznie je podbiliśmy. Wewnątrz Pro i Free kolejność jest czysto zasłużona.
Brak fałszywych odznak "Nowy i ulepszony". Model dostaje tag NEW tylko jeśli został dodany do platformy w ciągu ostatnich 14 dni. Potem odznaka spada automatycznie — żaden człowiek nie może jej trzymać przypiętej.
Brak rankingu sterowanego przez partnerów. Nie przyjmujemy zapłaty od żadnego dostawcy AI za umieszczenie. Gdyby OpenAI lub Anthropic wypuścili jutro model, który zająłby ostatnie miejsce w naszych pojedynkach, byłby na dole listy. (I szczerze mówiąc, i tak byśmy go wypuścili i pozwolili danym mówić.)
Brak "najdroższy jest najlepszy". Nasz najdroższy model Pro nie zawsze jest modelem o najwyższej jakości na platformie w tej chwili. Pokazujemy ci to. Nie ukrywamy.

Bucket "W ocenie"

Gdy model jest zupełnie nowy, nie ma wystarczająco danych A/B na sensowny Wilson Score. Przyklejenie mu 50% stopy zwycięstw byłoby mylące.

Więc nowe modele trafiają do bucketu W ocenie na górze selektora. Pokazują swoją szybkość (którą możemy zmierzyć od razu), ale w miejscu liczby jakości mówią "Zbieranie danych". Gdy zgromadzą wystarczająco pojedynków, automatycznie awansują do głównej listy rankingowej.

Zawsze będziesz wiedział, czy ocena, na którą patrzysz, jest statystycznie znacząca, czy tylko placeholderem.

Dlaczego to ma znaczenie

Przestrzeń AI companion jest pełna platform, które dużo mówią o "najlepszych modelach", nigdy nie pokazując ani jednej liczby. Niektóre sprzedają tańsze modele po cenach premium. Niektóre routują cię do modelu, który jest w ofercie tego miesiąca. Niektóre po prostu zgadują.

Wybieramy inny domyślny: powiedzieć ci prawdę, pokazać matematykę, pozwolić ci zdecydować.

Nie musisz nam wierzyć, gdy mówimy, że model jest dobry. Możesz zobaczyć pasek, zobaczyć kropki zaufania, najechać na p95 i wyrobić własne zdanie. Jeśli uważasz, że dane są błędne, porównanie podwójnych odpowiedzi nadal działa w twoich czatach — i twój następny głos preferencji ruszy liczbę.

Przypomnienie: wszystko to oficjalne API

To też dobry moment, żeby powtórzyć coś, co już powiedzieliśmy: każdy model w selektorze jest serwowany przez oficjalne API dostawcy. Brak fine-tuned podróbek. Brak zastępczych modeli skwantowanych. Brak tajemniczych "ekwiwalentów GPT-4" od stron trzecich.

Jeśli selektor mówi "Claude Opus 4.6", rozmawiasz z Claude Opus 4.6. Jeśli mówi "DeepSeek V3.2", rozmawiasz z DeepSeek V3.2. Wyniki jakościowe mają sens dokładnie dlatego, że modele są prawdziwe.

Co dalej

Selektor to widoczna część. Jest więcej, co chcemy zrobić z tymi danymi:

Rekomendacje per postać. Różne modele wyróżniają się w różnych archetypach postaci. Nasze dane preferencji powinny pozwolić nam sugerować "użytkownicy zwykle wolą model X dla tego typu postaci."
Spersonalizowane rankingi. Teraz wszyscy widzą ten sam globalny ranking. W końcu twoje ulubione modele powinny pływać na górze, na podstawie twoich własnych przeszłych wyborów.
Live alerty zdrowia modeli. Jeśli API dostawcy ma zły dzień i TTFT skacze, selektor powinien to odzwierciedlić w ciągu godziny, nie następnego dnia.

Ale wszystko to wymaga fundamentu uczciwych danych. Ten fundament właśnie dziś wypuszczamy.

Otwórz selektor modeli w następnym czacie i rzuć okiem. Jeśli głosowałeś w porównaniach podwójnych odpowiedzi, twoje odciski palców są na każdej liczbie, którą widzisz.

Wypróbuj nowy selektor →