盲测 A/B 胜率
用户在不知道哪个模型写了哪条回复的情况下二选一,我们记录这个选择。胜率来自这些盲测对决,用 Wilson 置信区间计分。
我们的立场
每个平台都说自己的 AI 很棒。我们更愿意把胜率摆出来,让模型自己说话。
— Reverie 团队
默认透明
四项指标,全部来自 Reverie 上的真实对话 —— 不是从新闻稿里抄来的厂商跑分。
用户在不知道哪个模型写了哪条回复的情况下二选一,我们记录这个选择。胜率来自这些盲测对决,用 Wilson 置信区间计分。
真实回复上的每一次点赞和点踩都汇入各模型的点赞率,你能看到每个模型在真正的角色扮演玩家那里表现如何。
模型多久开始回答 —— 平均值、中位数和 p95,全部在我们自己的基础设施上从实时流量测得。
回复开始流出后的原始生成速度。快的模型能让长场景一直推进 —— 哪些模型快,你看得一清二楚。
每项质量数据都带一个基于样本量的 1–5 星置信等级,在相信一个数字之前,你先知道它有多确定。
新模型从“评估中”状态开始 —— 在积累足够的盲测对比、能诚实下结论之前,我们不为它们标注任何质量声明。
当前阵容
实时读取自我们的模型注册表 —— 阵容一变,这张表也跟着变。
| 模型 | 上下文 | 推理 | 费用 |
|---|---|---|---|
DeepSeek V3.2基础 DeepSeek | 164K | — | 0.5× 积分 |
DeepSeek V4 Flash基础 DeepSeek | 164K | 可选 | 0.3× 积分 |
DeepSeek V4 Pro基础 DeepSeek | 164K | 可选 | 0.7× 积分 |
DeepSeek R1基础 DeepSeek | 164K | 始终开启 | 1× 积分 |
MiMo V2 Flash基础 Xiaomi | 262K | 可选 | 0.3× 积分 |
MiMo V2.5基础 Xiaomi | 262K | 可选 | 0.3× 积分 |
GLM 4.5 Air基础 Z.AI | 131K | 可选 | 0.5× 积分 |
GLM 4.7基础 Z.AI | 200K | 可选 | 1× 积分 |
GLM 5高级 Z.AI | 200K | 可选 | 1.3× 积分 |
Gemini 3 Flash Preview高级 | 1M | — | 1.2× 积分 |
Llama 3.1 8B基础 Meta | 131K | — | 免费 |
积分倍率相对于基准积分费率。图像和视频生成模型在聊天中单独提供。
你得到的
在这里,切换模型不是设置菜单里的彩蛋,而是产品本来的用法。
在消息之间换模型,不丢上下文。关键场景请来更锋利的模型,闲聊时再换回去。
不喜欢某条回复?换个模型重掷一次,留下读起来更好的版本。这些选择会汇入胜率统计。
创作者可以为每个角色设定偏好模型,让它用写作时预设的引擎说话。你自己的选择始终优先。
一个能打的免费模型一直挂在菜单上,零积分、有合理使用限制 —— 积分用完不等于对话结束。
每个模型都标明自己的积分倍率 —— 从 0.3× 的经济型到 2× 的前沿型 —— 成本是你做的选择,不是账单上的惊吓。
纯推理模型对付错综复杂的剧情,混合模型按需思考。给每场戏挑一个合适的大脑。
常见问题
大多数平台选定一个模型,包装一下,然后告诉你它有多棒。Reverie 同时运行多个模型,并公开它们彼此对决的真实表现 —— 就在产品里,在你做选择的地方。
质量分来自用户在两条匿名回复之间的选择。对比时既看不到名字也看不到厂商,所以数字衡量的是文笔,不是品牌。
除了汇总分,选择器还展示直接对决数据 —— 哪个模型赢哪个、赢多少,全部来自用户真实跑过的对比。
四十次对比得出的分数和四千次得出的不是一回事。每项指标都带一个由样本量推导的 1–5 星置信等级,和数字一起展示。
首 Token 时间和每秒 Token 数从生产环境对话中测得 —— 平均值、中位数和 p95 —— 不是从厂商参数表里抄来的。
不同的场景需要不同的大脑。一段细水长流的恋爱、一场战术军议、一段轻快的喜剧拌嘴,理想模型并不相同 —— 所以你不该被锁死在一个上。
来自 DeepSeek、Google、Z.AI、Xiaomi、Meta 等的聊天模型,上下文窗口从 131K 到一百万 token,统一界面,统一积分余额。
模型按个计价,从基准积分费率的 0.3× 到 2×,倍率直接印在模型卡上。日常场景用便宜的,关键时刻上前沿的。
专用推理模型在落笔前先思考,适合错综复杂的剧情;混合模型按需推理;多模态模型能读懂你上传到聊天里的图片。
无论余额多少,免费模型始终可用,有合理使用限制 —— 它是每段对话的保底,不是会过期的试用。