Реальные данные, а не маркетинг: как мы на самом деле ранжируем AI-модели

Обещание, данное в ноябре

В нашем посте о сравнении двойных ответов мы попросили вас о маленьком: когда вы видите два AI-ответа рядом, выберите тот, который вам больше нравится.

Мы обещали, что эти выборы будут иметь значение. Мы сказали, что ваши предпочтения помогут нам рекомендовать лучшие модели, оптимизировать маршрутизацию и "создавать функции, соответствующие реальным предпочтениям пользователей."

Сегодня мы запускаем первую функцию, построенную напрямую на этих данных — и мы хотим объяснить вам, как именно она работает, потому что прозрачность — это весь смысл.

Новый селектор моделей

Откройте выпадающее меню моделей в любом чате. Вы заметите, что это больше не плоский список имен. У каждой модели теперь есть две видимые метрики:

Качество: как часто вы и другие пользователи предпочитали эту модель в реальных A/B-сравнениях
Скорость: насколько быстро она реально отвечает, на основе последних нескольких сотен сообщений

Вот и всё. Никаких маркетинговых значков. Никакого "Выбора редакции". Никаких выдуманных стикеров "Премиум", чтобы подтолкнуть к апгрейду. Только два числа, оба полученные из реальных данных использования.

Как работает "Качество" (и почему это иначе)

Большинство AI-платформ ранжируют модели одним из трёх способов:

PR от вендора: "Anthropic выпустил новую модель — будем её продвигать."
Внутреннее ощущение: "Наша команда потестила час, понравилось."
Кто больше платит: "Наш партнёр в этом месяце даёт откат."

Ни один из этих методов не говорит вам, действительно ли модель хороша для ролевых игр — а вы здесь именно за этим.

Вот что мы делаем вместо этого:

Шаг 1: Реальные A/B-дуэли

Каждый раз, когда вы видели сравнение двойных ответов и выбирали один из них, мы это записывали. Один и тот же промпт, тот же персонаж, тот же контекст — менялась только модель. Ваш выбор был единственным сигналом.

За месяцы такого подхода у нас накопились десятки тысяч прямых противостояний по каждой активной модели на платформе.

Шаг 2: Wilson Score, а не наивный процент побед

Вот тонкая, но важная деталь. Если у модели 4 победы и 1 поражение, её наивный процент побед — 80%. Звучит здорово. Но 5 выборок — это статистический шум. У модели с 800 победами и 200 поражениями тоже 80% побед, и очевидно, что ей следует доверять больше.

Мы используем Wilson Score Lower Bound — тот же алгоритм, который Reddit использует для ранжирования комментариев. Он штрафует малые выборки, поэтому модели нужны и высокая предпочтительность, и достаточно данных, чтобы подняться в рейтинге.

Поэтому рядом с каждой моделью вы видите ряд маленьких точек уверенности: ●●●●○ означает "по этой модели у нас много данных". ●●○○○ означает "относись к числу с осторожностью". Мы не прячем неопределённость — мы её показываем.

Шаг 3: Мы никогда не называем абсолютные числа

Здесь мы проводим черту приватности. Селектор показывает процент побед и уровень уверенности, но никогда не показывает абсолютные количества. Модель могла быть выбрана 1 200 раз или 12 000 раз — вы увидите "●●●●●" в обоих случаях, потому что раскрытие точных чисел выдало бы, сколько у нас пользователей и что они делают.

Это намеренный компромисс. Мы хотим, чтобы вы доверяли оценке, не превращая нас в аналитический дашборд, который может скрейпить кто угодно.

Как работает "Скорость"

Качество — это одно число. Скорость должна измеряться по реальным запросам, а не по бенчмаркам, заявленным вендорами.

Каждое сообщение, которое мы обслуживаем, несёт блок метаданных с реальной задержкой первого токена (TTFT) и токенами в секунду для этого ответа. Мы агрегируем последние ~50 на модель и показываем медиану (p50) — а не среднее.

Почему медиану? Потому что средние значения врут, когда есть выбросы. Если модель обычно быстрая, но на прошлой неделе три ночи была медленной, среднее скажет вам, что модель медленная. Медиана говорит, что вы обычно увидите, и это то, что вам действительно важно.

Если вы наведёте курсор на индикатор скорости, вы также увидите p95 — задержку в худшем случае. У некоторых моделей очень узкое распределение задержек, у других длинные хвосты. Теперь вы видите оба.

Почему шкала скорости логарифмическая

Ответ за 1 секунду ощущается намного быстрее, чем ответ за 5 секунд. Ответ за 5 секунд ощущается почти так же, как за 6 секунд. Восприятие задержки человеком логарифмично, поэтому полоса скорости отображается на логарифмической шкале от [500мс, 20с].

Это значит, что reasoning-модель, которой нужно 18 секунд на первый токен (да, это реальные данные), отображается практически с пустой полосой скорости — а не как чуть более короткая версия 8-секундной модели. Потому что ощущения от этих двух опытов совершенно разные.

Что мы намеренно не делаем

Хотим конкретно перечислить то, чего мы избегаем:

Никакого чёрного ящика "Рекомендуется для вас". Сортировка по умолчанию — это просто данные: по Wilson Score, по убыванию. Pro-модели всплывают наверх только потому, что Pro-пользователи за них заплатили, а не потому, что мы их вручную поднимаем. Внутри Pro и Free порядок честно заслужен.
Никаких фальшивых значков "Новинка и улучшение". Модель получает тэг NEW, только если она была добавлена на платформу за последние 14 дней. После этого значок автоматически отваливается — никто не может удерживать его закреплённым.
Никакого ранжирования по партнёрам. Мы не получаем платежей ни от одного AI-провайдера за размещение. Если бы OpenAI или Anthropic завтра выпустили модель, которая в наших дуэлях оказалась последней, она была бы внизу списка. (И, честно говоря, мы бы её всё равно выкатили и дали данным говорить.)
Никакого "самое дорогое — самое лучшее". Наша самая дорогая Pro-модель сейчас не всегда самая качественная на платформе. Мы это показываем. Не прячем.

Бакет "В оценке"

Когда модель совсем новая, у неё недостаточно A/B-данных для значимого Wilson Score. Прилепить ей 50% побед было бы вводящим в заблуждение.

Поэтому новые модели попадают в бакет В оценке наверху селектора. Они показывают свою скорость (которую можно измерить сразу), но в месте качества пишут "Сбор данных". Когда накапливается достаточно дуэлей, они автоматически выпускаются в основной ранжированный список.

Вы всегда будете знать, статистически значима ли оценка, на которую вы смотрите, или это просто placeholder.

Почему это важно

Пространство AI-компаньонов полно платформ, которые много говорят о "лучших моделях", не показывая вам ни одного числа. Некоторые продают более дешёвые модели по премиум-ценам. Некоторые маршрутизируют вас на ту модель, на которую в этом месяце скидка. Некоторые просто гадают.

Мы выбираем другой дефолт: говорить вам правду, показывать математику, давать решать вам.

Вам не нужно верить нам на слово, когда мы говорим, что модель хорошая. Вы можете посмотреть на полосу, увидеть точки уверенности, навести курсор на p95 и составить своё собственное мнение. Если вы думаете, что данные неверны — сравнение двойных ответов всё ещё работает в ваших чатах, и ваше следующее голосование сдвинет число.

Напоминание: всё через официальные API

Это также хороший момент повторить то, что мы уже говорили: каждая модель в селекторе обслуживается через официальное API провайдера. Никаких файнтюненных подделок. Никаких квантизованных заменителей. Никаких "эквивалентов GPT-4" от третьих лиц.

Если селектор говорит "Claude Opus 4.6" — вы говорите с Claude Opus 4.6. Если говорит "DeepSeek V3.2" — с DeepSeek V3.2. Оценки качества имеют смысл именно потому, что модели настоящие.

Что дальше

Селектор — это видимая часть. Есть ещё то, что мы хотим сделать с этими данными:

Рекомендации по персонажам. Разные модели сильны в разных архетипах персонажей. Наши данные о предпочтениях должны позволить нам предлагать "пользователи обычно предпочитают модель X для этого типа персонажей."
Персонализированные рейтинги. Сейчас все видят один и тот же глобальный рейтинг. В конечном счёте ваши предпочитаемые модели должны всплывать наверх на основе вашего собственного прошлого опыта.
Живые алерты о здоровье моделей. Если у API провайдера плохой день и TTFT взлетает, селектор должен это отразить в течение часа, а не на следующий день.

Но всё это требует фундамента из честных данных. Этот фундамент — то, что мы запускаем сегодня.

Откройте селектор моделей в следующем чате и посмотрите. Если вы голосовали в сравнениях двойных ответов, ваши отпечатки на каждом числе, которое вы видите.

Попробовать новый селектор →