マーケティングではなく、リアルなデータ：AIモデルをどのようにランク付けしているか

11月にした約束

デュアルレスポンス比較の記事で、私たちは小さなお願いをしました：2つのAIレスポンスが並んで表示されたとき、好きな方を選んでください、と。

その選択が意味のあるものになる、と約束しました。あなたの選好がより良いモデルの推薦、ルーティングの最適化、そして「実際のユーザー選好に沿った機能の構築」に役立つと言いました。

今日リリースするのが、その約束を最初に形にした機能です ― そしてその裏側のしくみを最後まで説明します。透明性そのものが、この機能の核心だからです。

新しいモデルピッカー

任意のチャットでモデルのドロップダウンを開いてみてください。もうただの名前のリストではないことに気づくはずです。すべてのモデルに、2つの可視メトリクスがついています：

クオリティ：実際のA/B比較で、あなたや他のユーザーがこのモデルをどれだけ選んだか
スピード：直近数百件のメッセージから測定された、実際のレスポンス速度

それだけです。マーケティングバッジなし。「エディターズチョイス」なし。アップグレードを促すための「プレミアム」シールなし。あるのは2つの数字だけ、どちらも実際の使用データから算出されています。

「クオリティ」のしくみ（そしてなぜ違うのか）

ほとんどのAIプラットフォームは、3つのうちのどれかでモデルをランク付けしています：

ベンダーのPR：「Anthropicが新モデルを出したから推す」
チームの感覚：「うちのチームが1時間試して気に入った」
一番お金をくれるところ：「今月はパートナーがキックバックをくれている」

この3つのどれも、そのモデルがロールプレイに向いているかは教えてくれません ― あなたがReverieに来ている理由はそこにあるはずなのに。

私たちのやり方は違います：

ステップ1：本物のA/B対決

デュアルレスポンス比較が表示されて、あなたがどちらかを選ぶたびに、その選択を記録してきました。同じプロンプト、同じキャラクター、同じコンテキスト ― 違うのはモデルだけ。あなたの選択だけが信号でした。

数か月続けて、現在は数万回の頭対頭の対決記録が、プラットフォーム上のすべてのモデルペアにわたって蓄積されています。

ステップ2：単純な勝率ではなくWilson Score

ここに微妙だけど重要なポイントがあります。あるモデルが4勝1敗だとすると、単純な勝率は80%です。すごそうに聞こえます。でも5サンプルは統計的なノイズです。800勝200敗のモデルの勝率も80%ですが、後者の方が明らかに信頼できます。

私たちが使っているのは Wilson Score Lower Bound ― Redditがコメントのランキングに使っているのと同じアルゴリズムです。サンプルサイズが小さいモデルにペナルティを与えるので、ランキングを上に行くには「高い選好率」と「十分なデータ」の両方が必要です。

これがすべてのモデルの横に小さな確信度ドットが並んでいる理由です：●●●●○ は「このモデルのデータは多い」、●●○○○ は「数字は鵜呑みにしないで」。不確実性を隠さず、ありのまま見せています。

ステップ3：絶対数は決して教えません

ここでプライバシーの一線を引きます。ピッカーは勝率と確信度レベルを表示しますが、絶対的な対決回数は決して表示しません。あるモデルは1,200回選ばれたかもしれないし、12,000回選ばれたかもしれません ― どちらも "●●●●●" としか見えません。具体的な数字を出すことは、私たちのユーザー数や使い方を漏らすことだからです。

これは意図的なトレードオフです。誰でもスクレイピングできるアナリティクスダッシュボードにせず、評価そのものを信頼してもらいたいのです。

「スピード」のしくみ

クオリティは1つの数字。スピードはベンダーが宣伝するベンチマークではなく、実際のリクエストから測る必要があります。

私たちが処理するすべてのメッセージには、その応答の実際の首字レイテンシ（TTFT）と毎秒生成トークン数を記録するメタデータが付いています。モデルごとに直近の約50件を集計し、**中央値（p50）**を表示します ― 平均値ではありません。

なぜ中央値か？平均値は外れ値に騙されるからです。いつもは速いモデルが先週3晩だけ調子が悪かったとして、平均はそのモデルが遅いと教えてきます。中央値はあなたが普段経験する速度を教えてくれます ― そしてそれこそがあなたが本当に気にしていることです。

スピード指標にホバーすると、p95も見られます ― つまり最悪ケースのレイテンシです。レイテンシ分布がタイトなモデルもあれば、長い尾を引くモデルもあります。今は両方が見えます。

スピードバーが対数スケールである理由

1秒のレスポンスと5秒のレスポンスの差は、5秒と6秒の差よりずっと大きく感じます。人間のレイテンシ知覚は対数的なので、スピードバーは [500ms, 20s] の範囲で対数スケールにマッピングされています。

つまり、首字に18秒かかる推論モデル（はい、これは実データです）は、ほとんど空のスピードバーで表示されます ― 8秒のモデルより少し短いだけ、ではなく。なぜなら、あなたの実感においてその2つの体験は完全に違うからです。

私たちが意図的にしないこと

私たちが避けていることを、はっきり言っておきたいです：

ブラックボックスの「あなたへのおすすめ」はなし。 デフォルトのソート順はただのデータ：Wilson Scoreの降順です。ProモデルがトップにあるのはPro料金を払った人がいるから ― それだけで、私たちが手動でブーストしているわけではありません。Pro内、Free内の順序は完全にデータが決めます。
偽の「新しくなりました」バッジはなし。 NEW タグは、プラットフォームに追加されてから14日以内のモデルだけに付きます。14日後は自動的に消えます ― 人間がピン留めし続けることはできません。
パートナー駆動のランキングはなし。 どのAIプロバイダーからも、配置のための支払いを受けていません。明日OpenAIやAnthropicが新モデルをリリースして、私たちの対決で最下位だったら、それは本当に最下位に置かれます。（正直、それでも私たちは公開して、データに語らせます。）
「一番高いものが一番良い」という嘘なし。 私たちの一番高いProモデルは、現時点でプラットフォーム上の最高品質のモデルとは限りません。私たちはそれを正直に表示します。隠しません。

「評価中」バケット

ブランド新しいモデルは、Wilson Scoreを意味のある数字にするためのA/Bデータが足りません。50%の勝率を貼り付けるのは誤解を招きます。

そこで、新しいモデルはピッカーの一番上の 評価中 グループに入ります。スピード（即測定可能）は表示されますが、クオリティの位置には「データ収集中」と書かれます。十分な対決が蓄積されると、自動的にメインのランキングに進みます。

あなたが見ている評価が統計的に意味があるのか、それともプレースホルダーなのかは、いつでもわかります。

なぜこれが重要なのか

AIコンパニオンの分野には、「最良のモデル」を売り文句にしながら具体的な数字を一度も見せない、そんなプラットフォームが多すぎます。安いモデルにプレミアム価格を付けているところもあります。月ごとに割引中のモデルにあなたをルーティングするところもあります。完全に勘でやっているところもあります。

Reverieは別のデフォルトを選びます：真実を伝え、計算を見せ、あなたに判断してもらう。

私たちがあるモデルを「良い」と言うから信じる必要はありません。バーを見て、確信度ドットを見て、p95をホバーして、自分で決めればいいのです。もし数字が間違っていると思ったら、デュアルレスポンス比較は今もあなたのチャットで動いています ― 次の選好投票でその数字は動きます。

念のため：すべて公式API

ここで以前にも言ったことを繰り返しておきます：ピッカーのすべてのモデルは、公式プロバイダーAPI経由で提供されています。ファインチューニングされたコピーなし。量子化された代替品なし。サードパーティの「GPT-4相当」のような怪しいモデルなし。

ピッカーが「Claude Opus 4.6」と表示するなら、あなたが話しているのはClaude Opus 4.6です。「DeepSeek V3.2」と表示するならDeepSeek V3.2です。クオリティスコアに意味があるのは、まさにモデルが本物だからです。

次は何か

ピッカーは見える部分にすぎません。このデータでもっとやりたいことがあります：

キャラクター別のおすすめ。 異なるモデルが異なるキャラクター原型に強いのです。私たちの選好データは「このタイプのキャラクターでは、ユーザーはモデルXを好む傾向がある」という提案を可能にするはずです。
パーソナライズされたランキング。 今は誰もが同じグローバルランキングを見ています。やがては、あなた自身の過去の選択に基づいて、あなたの好みのモデルがトップに浮上するべきです。
リアルタイムのモデルヘルスアラート。 プロバイダーのAPIが調子悪くTTFTが急上昇したら、ピッカーは翌日ではなく1時間以内にそれを反映すべきです。

しかしそのすべてに、誠実なデータの土台が必要です。今日リリースするのが、その土台です。

次のチャットでモデルピッカーを開いてみてください。デュアルレスポンス比較で投票したことがあるなら、あなたが見るすべての数字にあなたの指紋がついています。

新しいピッカーを試す →