真实数据，不靠营销：我们是怎么给 AI 模型排名的

我们在 11 月许下的承诺

在双模型对比那篇博客里，我们让你做了一件小事：当你看到两条不同的 AI 回复并排出现时，挑一条你更喜欢的。

我们当时承诺这些选择会有意义。我们说你的偏好会帮助我们推荐更好的模型、优化路由、"打造真正贴合用户偏好的功能"。

今天我们发布的就是这个承诺兑现的第一个功能 —— 而且我们要把背后的算法完整地讲一遍，因为透明本身就是这个功能的重点。

全新的模型选择器

打开任意聊天的模型下拉框，你会发现它不再是一个干巴巴的名字列表了。每个模型现在都有两条可见的指标：

质量：你和其他用户在真实 A/B 对比中有多少次选择了它
速度：根据最近几百条消息测算出来的实际响应延迟

就这两个。没有营销徽章。没有"编辑推荐"。没有为了让你升级而瞎贴的"高级"标签。只有两个数字，全部来自真实的使用数据。

"质量"是怎么算出来的

大多数 AI 平台用以下三种方式之一给模型排名：

厂商公关："Anthropic 出了新模型，那我们就推它。"
内部拍脑袋："我们团队试了一小时，感觉还不错。"
谁给钱多排谁前面："这个月这家供应商给了返佣。"

这三种方式没有一个能告诉你这个模型是不是真的适合扮演聊天 —— 而扮演聊天才是你来 Reverie 的原因。

我们的做法不一样：

第一步：真实的 A/B 对决

每次你在新对话里看到双回复对比并选了其中一条，我们就把这次选择记下来。同样的提示词、同样的角色、同样的上下文 —— 唯一不同的就是模型。你的选择是唯一的信号。

几个月下来，我们已经积累了数万次真实的对决记录，覆盖平台上每一对活跃模型。

第二步：用 Wilson Score，不是简单胜率

这里有个细节但很重要。如果一个模型 4 胜 1 负，朴素胜率是 80%，听起来很厉害。但5 个样本就是统计噪声。一个 800 胜 200 负的模型胜率也是 80%，显然你应该更相信第二个。

我们用的是 Wilson Score 下界 —— 跟 Reddit 排序评论用的是同一套算法。它会惩罚小样本，所以一个模型既要"被偏好的比例高"又要"数据足够多"才能往排名前面爬。

这就是为什么你会在每个模型旁边看到一排小圆点：●●●●○ 表示"这个模型的数据很多"，●●○○○ 表示"这个数字要保留意见"。我们没有把不确定性藏起来，而是直接给你看。

第三步：我们永远不会告诉你具体次数

这里有一条隐私红线。选择器会展示胜率和置信度，但永远不会展示绝对的对决次数。一个模型可能被选择了 1,200 次，也可能被选择了 12,000 次 —— 你看到的都是 "●●●●●"，因为暴露具体数字等于暴露我们的用户量和使用习惯。

这是一个我们主动做的取舍。我们希望你信任评分本身，而不是把这里变成一个谁都能爬走数据的分析面板。

"速度"是怎么算出来的

质量是一个数字。速度则必须从真实请求里测出来，不能用厂商宣传的 benchmark。

我们处理的每一条消息都会附带一段 metadata，记录这次响应真实的首字延迟和每秒生成 token 数。我们把每个模型最近大约 50 条这样的数据聚合起来，展示中位数（p50），而不是平均值。

为什么是中位数？因为平均值会被异常值骗。如果一个模型平时很快但上周有三个晚上抽风，平均值会告诉你这个模型很慢。中位数告诉你的是你大概率会经历的真实速度，而这才是你真正在意的东西。

把鼠标悬停在速度指标上，你还会看到 p95 —— 也就是最坏情况下的延迟。有些模型的延迟分布很集中，有些则有很长的尾巴。现在你两个都能看到。

速度条为什么用对数尺度

1 秒响应和 5 秒响应之间的差距，比 5 秒和 6 秒之间的差距大得多。人对延迟的感知是对数的，所以速度条在 [500ms, 20s] 这个区间用对数刻度做了映射。

这意味着一个推理模型如果首字延迟 18 秒（是的，这是真实数据），它的速度条会几乎为空 —— 而不是只比 8 秒模型短一点点。因为你的实际感受里，这两种延迟的差异是巨大的。

我们刻意不做的事

有几件事我们要明确地说我们不做：

没有黑盒"为你推荐"。 默认排序就是真实数据：按 Wilson Score 降序。Pro 模型排在前面只是因为 Pro 用户付了钱，不是因为我们手动给它加权。Pro 内部和 Free 内部，顺序完全是数据决定的。
没有假的"焕新升级"徽章。 一个模型只有在加入平台不到 14 天的时候才会显示 NEW 标签。14 天一到自动消失 —— 没人能手动把它一直钉在那里。
没有合作方驱动的排名。 我们不收任何 AI 厂商的任何"位置费"。如果 OpenAI 或 Anthropic 明天发了一个在我们对决里垫底的模型，它就会真的排在最后面。（说实话我们也会照样把它上线，让数据说话。）
没有"最贵的就是最好的"。 我们最贵的 Pro 模型目前并不是平台上质量最高的模型。我们如实展示这一点。我们不藏。

"评估中"分组

一个全新模型刚加入平台时，它的 A/B 数据还不足以算出有意义的 Wilson Score。这时候硬给它贴个 50% 胜率会误导你。

所以新模型会进入选择器顶部的评估中分组。它们会展示速度（速度数据可以立刻测出来），但在质量数字的位置写着"数据收集中"。等积累了足够多的对决以后，它们会自动毕业进入主排名列表。

你永远会知道你看到的这个评分到底是有统计意义的，还是只是个占位符。

为什么这件事很重要

AI 陪伴这个赛道上，太多平台喜欢吹嘘自己有"最好的模型"，但从来不给你看一个具体数字。有的平台用便宜模型套个高级定价。有的平台把你路由到当月给折扣的模型。还有的就是纯靠拍脑袋。

我们选择另一种默认：告诉你真相，把算法摆出来，让你自己判断。

你不需要因为我们说"这个模型很好"就信我们。你可以看条形图、看置信度小圆点、悬停看 p95，然后自己拿主意。如果你觉得某个数字不对，双回复对比功能依然在你的对话里运行 —— 你下一次的偏好投票就会改变这个数字。

顺便重申：全部都是官方 API

借这个机会再讲一遍我们之前说过的话：选择器里的每一个模型都是通过官方厂商 API 提供的。没有微调过的山寨版。没有量化过的替代品。没有什么第三方的"GPT-4 同等水平"的神秘模型。

如果选择器显示 "Claude Opus 4.6"，你对话的就是 Claude Opus 4.6。如果显示 "DeepSeek V3.2"，你对话的就是 DeepSeek V3.2。质量评分有意义，恰恰是因为这些模型是真的。

接下来呢

选择器只是你能看到的部分。我们想用这些数据做更多的事：

按角色推荐模型。 不同的模型擅长不同类型的角色。我们的偏好数据应该能让我们说出"用户在这种角色上更倾向于选择 X 模型"。
个性化排名。 现在所有人看到的是同一份全局排名。未来，你偏好的模型应该会基于你自己的历史选择浮到你看到的列表顶部。
实时模型健康提醒。 如果某个厂商的 API 当天抽风导致首字延迟暴涨，选择器应该在一个小时之内反映出来，而不是等到第二天。

但这一切都需要一个建立在诚实数据上的地基。今天我们发布的，就是这个地基。

下次开聊天的时候打开模型选择器看一眼。如果你之前在双回复对比里投过票，你的指纹就在你看到的每一个数字里。

体验新的模型选择器 →