Процент побед в слепых A/B
Когда пользователи сравнивают два ответа, не зная, какая модель написала какой, мы записываем выбор. Проценты побед считаются по таким слепым парам с доверительными интервалами Уилсона.
Модели от восьми вендоров — у каждой оценки качества из слепых A/B-тестов, доля лайков пользователей и живая статистика скорости, прямо в селекторе. Переключайтесь в любой момент, в том числе посреди диалога.
DeepSeek V4 Flash
DeepSeek
GLM 5
Z.AI
Llama 3.1 8B
Meta
Наша позиция
Каждая платформа говорит, что её ИИ великолепен. Мы лучше покажем вам проценты побед — и пусть модели спорят за себя сами.
— Команда Reverie
Прозрачность по умолчанию
Четыре метрики, измеренные на реальных диалогах в Reverie, а не вендорские бенчмарки, переписанные из пресс-релиза.
Когда пользователи сравнивают два ответа, не зная, какая модель написала какой, мы записываем выбор. Проценты побед считаются по таким слепым парам с доверительными интервалами Уилсона.
Каждый лайк и дизлайк на реальных ответах складывается в долю лайков по модели — видно, как каждая модель заходит настоящим ролевикам.
Сколько проходит до начала ответа — среднее, медиана и p95, измеренные на живом трафике нашей собственной инфраструктуры.
Чистая скорость генерации после начала ответа. Быстрые модели не дают длинным сценам провисать — и вы точно видите, какие именно это модели.
У каждой оценки качества есть уровень уверенности от 1 до 5 звёзд, зависящий от размера выборки, — вы знаете, насколько устоялась цифра, прежде чем ей доверять.
Новые модели стартуют в статусе «на оценке»: мы показываем их без заявлений о качестве, пока не накопится достаточно слепых сравнений, чтобы говорить честно.
Текущий состав
Читается напрямую из нашего реестра моделей — когда состав меняется, меняется и эта таблица.
| Модель | Контекст | Рассуждения | Стоимость |
|---|---|---|---|
DeepSeek V3.2Базовый DeepSeek | 164K | — | 0.5× кредитов |
DeepSeek V4 FlashБазовый DeepSeek | 164K | Опционально | 0.3× кредитов |
DeepSeek V4 ProБазовый DeepSeek | 164K | Опционально | 0.7× кредитов |
DeepSeek R1Базовый DeepSeek | 164K | Всегда включены | 1× кредитов |
MiMo V2 FlashБазовый Xiaomi | 262K | Опционально | 0.3× кредитов |
MiMo V2.5Базовый Xiaomi | 262K | Опционально | 0.3× кредитов |
GLM 4.5 AirБазовый Z.AI | 131K | Опционально | 0.5× кредитов |
GLM 4.7Базовый Z.AI | 200K | Опционально | 1× кредитов |
GLM 5Продвинутый Z.AI | 200K | Опционально | 1.3× кредитов |
Gemini 3 Flash PreviewПродвинутый | 1M | — | 1.2× кредитов |
Llama 3.1 8BБазовый Meta | 131K | — | Бесплатно |
Множители кредитов указаны относительно базовой ставки. Модели генерации изображений и видео доступны отдельно в чате.
Что вы получаете
Смена модели здесь — не пасхалка в меню настроек. Так продукт и задуман.
Меняйте модель между сообщениями, не теряя нить. Подключите модель поумнее для ключевой сцены и вернитесь обратно для лёгкой болтовни.
Не понравился ответ? Перегенерируйте его другой моделью и оставьте ту версию, что читается лучше. Эти выборы и питают статистику побед.
Авторы могут задать предпочтительную модель для каждого персонажа, чтобы он говорил на том движке, под который написан. Ваш собственный выбор всегда важнее.
Достойная бесплатная модель всегда в меню за ноль кредитов, с лимитами честного использования: закончились кредиты — не закончился разговор.
У каждой модели виден её множитель кредитов — от бюджетных 0.3× до флагманских 2×. Стоимость — это ваш выбор, а не сюрприз в счёте.
Чистые рассуждающие модели для запутанных сюжетов и гибридные, которые думают только по запросу. Выбирайте мозг под сцену.
Частые вопросы
Большинство платформ берут одну модель, вешают на неё бренд и говорят, что она прекрасна. Reverie запускает много моделей и публикует, как они на самом деле выступают друг против друга — прямо в продукте, там, где вы выбираете.
Оценки качества берутся из выбора пользователей между двумя анонимными ответами. Во время сравнения не видно ни названия, ни вендора, так что цифры измеряют текст, а не бренд.
Помимо сводных оценок селектор показывает данные прямых противостояний: какая модель побеждает какую и с каким отрывом — в сравнениях, которые реально проводили пользователи.
Оценка по сорока сравнениям — не то же самое, что по четырём тысячам. Каждая метрика несёт уровень уверенности от 1 до 5 звёзд, рассчитанный по размеру выборки и показанный рядом с цифрой.
Время до первого токена и токены в секунду измеряются на боевых диалогах — среднее, медиана и p95, — а не цитируются из даташита вендора.
Разным сценам нужны разные мозги. У неспешного романа, военного совета и быстрой комичной перепалки нет одной идеальной модели — значит, и вас не должно запирать на одной.
Чат-модели от DeepSeek, Google, Z.AI, Xiaomi, Meta и других, с контекстными окнами от 131K до миллиона токенов — всё за одним интерфейсом и одним балансом кредитов.
Модели оцениваются индивидуально, от 0.3× до 2× базовой ставки, и множитель напечатан на карточке модели. Дешёвые модели для повседневных сцен, флагманские — когда это важно.
Специальные рассуждающие модели думают, прежде чем писать, — для запутанных сюжетов; гибридные рассуждают по запросу; мультимодальные читают изображения, которые вы загружаете в чат.
Бесплатная модель доступна независимо от вашего баланса, с лимитами честного использования — это опора под каждым диалогом, а не пробный период с истечением.
Когда будете готовы
Откройте селектор моделей в любом чате, отсортируйте по цифрам и найдите свою любимую.