模型选择

你来选模型。我们公开数据。

来自八家厂商的模型，每个都带盲测 A/B 质量分、用户点赞率和实时速度数据 —— 就显示在选择器里。随时切换，对话中途也行。

试试这些模型查看价格

DeepSeek V4 Flash

DeepSeek

164K 上下文0.3× 积分

GLM 5

Z.AI

200K 上下文1.3× 积分

Llama 3.1 8B

每张模型卡背后的数据。

四项指标，全部来自 Reverie 上的真实对话 —— 不是从新闻稿里抄来的厂商跑分。

盲测 A/B 胜率

用户在不知道哪个模型写了哪条回复的情况下二选一，我们记录这个选择。胜率来自这些盲测对决，用 Wilson 置信区间计分。

用户点赞率

真实回复上的每一次点赞和点踩都汇入各模型的点赞率，你能看到每个模型在真正的角色扮演玩家那里表现如何。

首 Token 时间

模型多久开始回答 —— 平均值、中位数和 p95，全部在我们自己的基础设施上从实时流量测得。

每秒 Token 数

回复开始流出后的原始生成速度。快的模型能让长场景一直推进 —— 哪些模型快，你看得一清二楚。

每项质量数据都带一个基于样本量的 1–5 星置信等级，在相信一个数字之前，你先知道它有多确定。

新模型从“评估中”状态开始 —— 在积累足够的盲测对比、能诚实下结论之前，我们不为它们标注任何质量声明。

当前阵容

现在阵中的模型。

实时读取自我们的模型注册表 —— 阵容一变，这张表也跟着变。

模型	上下文	推理	费用
DeepSeek V3.2基础 DeepSeek	164K	—	0.5× 积分
DeepSeek V4 Flash基础 DeepSeek	164K	可选	0.3× 积分
DeepSeek V4 Pro基础 DeepSeek	164K	可选	0.7× 积分
DeepSeek R1基础 DeepSeek	164K	始终开启	1× 积分
MiMo V2.5基础 Xiaomi	262K	可选	0.3× 积分
GLM 4.5 Air基础 Z.AI	131K	可选	0.5× 积分
GLM 4.7基础 Z.AI	200K	可选	1× 积分
GLM 5高级 Z.AI	200K	可选	1.3× 积分
Gemini 3 Flash Preview高级 Google	1M	—	1.2× 积分
Llama 3.1 8B基础 Meta	131K	—	免费

积分倍率相对于基准积分费率。图像和视频生成模型在聊天中单独提供。

你得到的

真正有意义的模型选择权。

在这里，切换模型不是设置菜单里的彩蛋，而是产品本来的用法。

对话中途切换

在消息之间换模型，不丢上下文。关键场景请来更锋利的模型，闲聊时再换回去。

用另一个模型重新生成

不喜欢某条回复？换个模型重掷一次，留下读起来更好的版本。这些选择会汇入胜率统计。

按角色的默认模型

创作者可以为每个角色设定偏好模型，让它用写作时预设的引擎说话。你自己的选择始终优先。

永远有一个免费模型

一个能打的免费模型一直挂在菜单上，零积分、有合理使用限制 —— 积分用完不等于对话结束。

诚实的按模型计价

每个模型都标明自己的积分倍率 —— 从 0.3× 的经济型到 2× 的前沿型 —— 成本是你做的选择，不是账单上的惊吓。

推理模型也在列

纯推理模型对付错综复杂的剧情，混合模型按需思考。给每场戏挑一个合适的大脑。

常见问题

关于模型的问题。

在 Reverie 上能用哪些 AI 模型？

公开阵容涵盖 DeepSeek、Google、Z.AI、Xiaomi、Meta 等厂商 —— 十多个聊天模型，外加单独的图像和视频模型。本页的表格由实时模型注册表生成，所以永远是最新的。

Reverie 怎么衡量模型质量？

三种方式：盲测 A/B 对比，由用户在两条匿名回复中选出更好的一条（用 Wilson 置信区间计分）；来自真实对话的各模型点赞率；以及在我们自己基础设施上测得的延迟和吞吐。每项数据都显示基于样本量的置信等级。

聊天中途能换模型吗？

能。每段对话里都有模型选择器，你还可以用不同的模型重新生成某一条回复，留下更好的版本。

有免费的 AI 模型吗？

有。免费模型始终可用，零积分、有合理使用限制，角色扮演也包含在内 —— 积分系统的运作方式见无限聊天。

为什么不同模型价格不同？

每个模型都有反映其真实运行成本的积分倍率，从经济型的 0.3× 到前沿型的 2×。你按对话自行权衡，而不是付一个混合均价 —— 详情见价格页。

模型上的“评估中”标签是什么意思？

新上架的模型还没有积累足够的盲测对比来给出统计上诚实的质量分，所以我们标注“评估中”，在数据齐之前不发布任何质量声明。

公开质量数据的 AI 模型选择

大多数平台选定一个模型，包装一下，然后告诉你它有多棒。Reverie 同时运行多个模型，并公开它们彼此对决的真实表现 —— 就在产品里，在你做选择的地方。

盲测 A/B，不是营销话术

质量分来自用户在两条匿名回复之间的选择。对比时既看不到名字也看不到厂商，所以数字衡量的是文笔，不是品牌。

一对一对决战绩

除了汇总分，选择器还展示直接对决数据 —— 哪个模型赢哪个、赢多少，全部来自用户真实跑过的对比。

每项数据都有置信等级

四十次对比得出的分数和四千次得出的不是一回事。每项指标都带一个由样本量推导的 1–5 星置信等级，和数字一起展示。

来自真实流量的实时速度数据

首 Token 时间和每秒 Token 数从生产环境对话中测得 —— 平均值、中位数和 p95 —— 不是从厂商参数表里抄来的。

一个平台，多个引擎

不同的场景需要不同的大脑。一段细水长流的恋爱、一场战术军议、一段轻快的喜剧拌嘴，理想模型并不相同 —— 所以你不该被锁死在一个上。

多厂商阵容

来自 DeepSeek、Google、Z.AI、Xiaomi、Meta 等的聊天模型，上下文窗口从 131K 到一百万 token，统一界面，统一积分余额。

透明的积分倍率

模型按个计价，从基准积分费率的 0.3× 到 2×，倍率直接印在模型卡上。日常场景用便宜的，关键时刻上前沿的。

推理与多模态选项

专用推理模型在落笔前先思考，适合错综复杂的剧情；混合模型按需推理；多模态模型能读懂你上传到聊天里的图片。

零积分的免费模型

无论余额多少，免费模型始终可用，有合理使用限制 —— 它是每段对话的保底，不是会过期的试用。

准备好了

别猜了。看数据。

在任意聊天里打开模型选择器，按数据排序，找到你的最爱。

打开 Reverie 查看价格

你来选模型。 我们公开数据。

每张模型卡背后的 数据。