#透明度#AI 模型#数据驱动#模型选择器#用户偏好

真实数据,不靠营销:我们是怎么给 AI 模型排名的

Reverie 团队
Reverie 团队

我们在 11 月许下的承诺

双模型对比那篇博客 里,我们让你做了一件小事:当你看到两条不同的 AI 回复并排出现时,挑一条你更喜欢的

我们当时承诺这些选择会有意义。我们说你的偏好会帮助我们推荐更好的模型、优化路由、"打造真正贴合用户偏好的功能"。

今天我们发布的就是这个承诺兑现的第一个功能 —— 而且我们要把背后的算法完整地讲一遍,因为透明本身就是这个功能的重点

全新的模型选择器

打开任意聊天的模型下拉框,你会发现它不再是一个干巴巴的名字列表了。每个模型现在都有两条可见的指标:

  • 质量:你和其他用户在真实 A/B 对比中有多少次选择了它
  • 速度:根据最近几百条消息测算出来的实际响应延迟

就这两个。没有营销徽章。没有"编辑推荐"。没有为了让你升级而瞎贴的"高级"标签。只有两个数字,全部来自真实的使用数据。

"质量"是怎么算出来的

大多数 AI 平台用以下三种方式之一给模型排名:

  1. 厂商公关:"Anthropic 出了新模型,那我们就推它。"
  2. 内部拍脑袋:"我们团队试了一小时,感觉还不错。"
  3. 谁给钱多排谁前面:"这个月这家供应商给了返佣。"

这三种方式没有一个能告诉你这个模型是不是真的适合扮演聊天 —— 而扮演聊天才是你来 Reverie 的原因。

我们的做法不一样:

第一步:真实的 A/B 对决

每次你在新对话里看到双回复对比并选了其中一条,我们就把这次选择记下来。同样的提示词、同样的角色、同样的上下文 —— 唯一不同的就是模型。你的选择是唯一的信号。

几个月下来,我们已经积累了数万次真实的对决记录,覆盖平台上每一对活跃模型。

第二步:用 Wilson Score,不是简单胜率

这里有个细节但很重要。如果一个模型 4 胜 1 负,朴素胜率是 80%,听起来很厉害。但5 个样本就是统计噪声。一个 800 胜 200 负的模型胜率也是 80%,显然你应该更相信第二个。

我们用的是 Wilson Score 下界 —— 跟 Reddit 排序评论用的是同一套算法。它会惩罚小样本,所以一个模型既要"被偏好的比例高"又要"数据足够多"才能往排名前面爬。

这就是为什么你会在每个模型旁边看到一排小圆点:●●●●○ 表示"这个模型的数据很多",●●○○○ 表示"这个数字要保留意见"。我们没有把不确定性藏起来,而是直接给你看。

第三步:我们永远不会告诉你具体次数

这里有一条隐私红线。选择器会展示胜率置信度,但永远不会展示绝对的对决次数。一个模型可能被选择了 1,200 次,也可能被选择了 12,000 次 —— 你看到的都是 "●●●●●",因为暴露具体数字等于暴露我们的用户量和使用习惯。

这是一个我们主动做的取舍。我们希望你信任评分本身,而不是把这里变成一个谁都能爬走数据的分析面板。

"速度"是怎么算出来的

质量是一个数字。速度则必须从真实请求里测出来,不能用厂商宣传的 benchmark。

我们处理的每一条消息都会附带一段 metadata,记录这次响应真实的首字延迟每秒生成 token 数。我们把每个模型最近大约 50 条这样的数据聚合起来,展示中位数(p50)而不是平均值

为什么是中位数?因为平均值会被异常值骗。如果一个模型平时很快但上周有三个晚上抽风,平均值会告诉你这个模型很慢。中位数告诉你的是你大概率会经历的真实速度,而这才是你真正在意的东西。

把鼠标悬停在速度指标上,你还会看到 p95 —— 也就是最坏情况下的延迟。有些模型的延迟分布很集中,有些则有很长的尾巴。现在你两个都能看到。

速度条为什么用对数尺度

1 秒响应和 5 秒响应之间的差距,比 5 秒和 6 秒之间的差距大得多。人对延迟的感知是对数的,所以速度条在 [500ms, 20s] 这个区间用对数刻度做了映射。

这意味着一个推理模型如果首字延迟 18 秒(是的,这是真实数据),它的速度条会几乎为空 —— 而不是只比 8 秒模型短一点点。因为你的实际感受里,这两种延迟的差异是巨大的。

我们刻意做的事

有几件事我们要明确地说我们不做:

  • 没有黑盒"为你推荐"。 默认排序就是真实数据:按 Wilson Score 降序。Pro 模型排在前面只是因为 Pro 用户付了钱,不是因为我们手动给它加权。Pro 内部和 Free 内部,顺序完全是数据决定的。
  • 没有假的"焕新升级"徽章。 一个模型只有在加入平台不到 14 天的时候才会显示 NEW 标签。14 天一到自动消失 —— 没人能手动把它一直钉在那里。
  • 没有合作方驱动的排名。 我们不收任何 AI 厂商的任何"位置费"。如果 OpenAI 或 Anthropic 明天发了一个在我们对决里垫底的模型,它就会真的排在最后面。(说实话我们也会照样把它上线,让数据说话。)
  • 没有"最贵的就是最好的"。 我们最贵的 Pro 模型目前并不是平台上质量最高的模型。我们如实展示这一点。我们不藏。

"评估中"分组

一个全新模型刚加入平台时,它的 A/B 数据还不足以算出有意义的 Wilson Score。这时候硬给它贴个 50% 胜率会误导你。

所以新模型会进入选择器顶部的评估中分组。它们会展示速度(速度数据可以立刻测出来),但在质量数字的位置写着"数据收集中"。等积累了足够多的对决以后,它们会自动毕业进入主排名列表。

永远会知道你看到的这个评分到底是有统计意义的,还是只是个占位符。

为什么这件事很重要

AI 陪伴这个赛道上,太多平台喜欢吹嘘自己有"最好的模型",但从来不给你看一个具体数字。有的平台用便宜模型套个高级定价。有的平台把你路由到当月给折扣的模型。还有的就是纯靠拍脑袋。

我们选择另一种默认:告诉你真相,把算法摆出来,让你自己判断。

你不需要因为我们说"这个模型很好"就信我们。你可以看条形图、看置信度小圆点、悬停看 p95,然后自己拿主意。如果你觉得某个数字不对,双回复对比功能依然在你的对话里运行 —— 你下一次的偏好投票就会改变这个数字。

顺便重申:全部都是官方 API

借这个机会再讲一遍我们之前说过的话:选择器里的每一个模型都是通过官方厂商 API 提供的。没有微调过的山寨版。没有量化过的替代品。没有什么第三方的"GPT-4 同等水平"的神秘模型。

如果选择器显示 "Claude Opus 4.6",你对话的就是 Claude Opus 4.6。如果显示 "DeepSeek V3.2",你对话的就是 DeepSeek V3.2。质量评分有意义,恰恰是因为这些模型是真的。

接下来呢

选择器只是你能看到的部分。我们想用这些数据做更多的事:

  • 按角色推荐模型。 不同的模型擅长不同类型的角色。我们的偏好数据应该能让我们说出"用户在这种角色上更倾向于选择 X 模型"。
  • 个性化排名。 现在所有人看到的是同一份全局排名。未来,偏好的模型应该会基于你自己的历史选择浮到你看到的列表顶部。
  • 实时模型健康提醒。 如果某个厂商的 API 当天抽风导致首字延迟暴涨,选择器应该在一个小时之内反映出来,而不是等到第二天。

但这一切都需要一个建立在诚实数据上的地基。今天我们发布的,就是这个地基。


下次开聊天的时候打开模型选择器看一眼。如果你之前在双回复对比里投过票,你的指纹就在你看到的每一个数字里。

体验新的模型选择器 →

准备体验动态AI对话了吗?

加入成千上万的用户,一起探索无限个性和引人入胜的互动体验。