ブラインドA/B勝率
どちらのモデルが書いたか分からない状態で2つの返答を比較したとき、その選択を記録する。勝率はこのブラインド対決から、Wilson 信頼区間でスコア化される。
私たちの立場
どのプラットフォームも自分のAIは素晴らしいと言う。私たちはむしろ勝率を見せて、モデル自身に語らせたい。
— Reverie チーム
デフォルトで透明
4つの指標を Reverie 上の実際の会話から計測 ― プレスリリースから写したベンダーのベンチマークではなく。
どちらのモデルが書いたか分からない状態で2つの返答を比較したとき、その選択を記録する。勝率はこのブラインド対決から、Wilson 信頼区間でスコア化される。
実際の返答へのグッド/バッドの一つひとつがモデル別の高評価率に集計され、各モデルが本物のロールプレイヤーにどう受け取られているかが見える。
モデルが答え始めるまでの時間 ― 平均、中央値、p95 を、自社インフラ上のライブトラフィックから計測。
返答が流れ始めてからの素の生成速度。速いモデルは長いシーンを止めない ― それがどのモデルかが正確に分かる。
すべての品質統計にはサンプル数に基づく1–5つ星の信頼度が付く。数字を信じる前に、それがどれだけ確かなものか分かる。
新しいモデルは「評価中」の状態から始まる ― 正直に語れるだけのブラインド比較が蓄積されるまで、品質の主張なしで表示する。
現在のラインナップ
モデルレジストリからライブで読み込み ― ラインナップが変われば、この表も一緒に変わる。
| モデル | コンテキスト | 推論 | コスト |
|---|---|---|---|
DeepSeek V3.2ベーシック DeepSeek | 164K | — | 0.5× クレジット |
DeepSeek V4 Flashベーシック DeepSeek | 164K | オプション | 0.3× クレジット |
DeepSeek V4 Proベーシック DeepSeek | 164K | オプション | 0.7× クレジット |
DeepSeek R1ベーシック DeepSeek | 164K | 常時オン | 1× クレジット |
MiMo V2 Flashベーシック Xiaomi | 262K | オプション | 0.3× クレジット |
MiMo V2.5ベーシック Xiaomi | 262K | オプション | 0.3× クレジット |
GLM 4.5 Airベーシック Z.AI | 131K | オプション | 0.5× クレジット |
GLM 4.7ベーシック Z.AI | 200K | オプション | 1× クレジット |
GLM 5アドバンスド Z.AI | 200K | オプション | 1.3× クレジット |
Gemini 3 Flash Previewアドバンスド | 1M | — | 1.2× クレジット |
Llama 3.1 8Bベーシック Meta | 131K | — | 無料 |
クレジット倍率は基準クレジットレートに対する相対値。画像・動画生成モデルはチャット内で別途利用できます。
得られるもの
ここではモデル切り替えは設定メニューの隠し機能ではない。それがこのプロダクトの本来の使い方。
スレッドを失わずにメッセージの合間でモデルを変更。山場のシーンには切れ味のいいモデルを、雑談には軽いものに戻して。
返答が気に入らない? 別のモデルで引き直して、読み心地のいい方を残せばいい。その選択が勝率統計に反映される。
クリエイターはキャラクターごとに推奨モデルを設定でき、書かれたときのエンジンで話させられる。あなた自身の選択が常に優先される。
実力のある無料モデルがクレジット0でメニューに残り続ける(フェアユース制限あり) ― クレジット切れが会話切れを意味することはない。
各モデルにクレジット倍率を表示 ― 0.3× の省コストモデルから 2× のフロンティアモデルまで ― コストはあなたが選ぶもので、請求書のサプライズではない。
込み入ったプロットには純粋な推論モデルを、求めたときだけ考えるハイブリッドも。シーンに合う頭脳を選ぼう。
よくある質問
ほとんどのプラットフォームはモデルを1つ選び、ブランドを付けて、素晴らしいと言う。Reverie は多数を走らせ、互いにどう戦っているかの実績を公開する ― プロダクトの中、あなたが選ぶその場所で。
品質スコアは、匿名の2つの返答からユーザーが選んだ結果から生まれる。比較中はラベルもベンダーも見えないので、数字が測るのは文章であってブランドではない。
集計スコアだけでなく、ピッカーには直接対決のデータも表示される ― どのモデルがどのモデルに、どれだけの差で勝っているか。ユーザーが実際に行った比較から。
40回の比較によるスコアと4000回によるスコアは別物。各指標にはサンプル数から導いた1–5つ星の信頼度が付き、数字の横に表示される。
最初のトークンまでの時間と毎秒トークン数は、本番の会話から計測 ― 平均、中央値、p95 ― ベンダーのデータシートからの引用ではない。
シーンが違えば、求める頭脳も違う。じっくり進む恋愛、戦術会議、テンポのいいコメディの応酬 ― 理想のモデルは同じではない。だから1つに縛られるべきではない。
DeepSeek、Google、Z.AI、Xiaomi、Meta などのチャットモデル。コンテキストウィンドウは 131K から100万トークンまで、すべて1つのインターフェースと1つのクレジット残高の中に。
モデルは個別に価格付けされ、基準クレジットレートの 0.3× から 2× まで。倍率はモデルカードに明記。日常のシーンには安いモデルを、勝負どころにはフロンティアモデルを。
込み入ったプロットには書く前に考える専用推論モデルを。ハイブリッドモデルは求めに応じて推論し、マルチモーダルモデルはチャットにアップロードした画像を読める。
無料モデルは残高に関係なく利用可能(フェアユース制限あり) ― すべての会話を支える床であって、期限切れになるトライアルではない。