モデル選択

モデルはあなたが選ぶ。 数字は私たちが公開する。

8つのベンダーのモデルに、ブラインドA/Bテストの品質スコア、ユーザー高評価率、ライブ速度統計 ― すべてピッカーの中に。いつでも切り替え可能、会話の途中でも。

DeepSeek V4 Flash

DeepSeek

164K コンテキスト0.3× クレジット

GLM 5

Z.AI

200K コンテキスト1.3× クレジット

Llama 3.1 8B

Meta

131K コンテキスト無料

私たちの立場

どのプラットフォームも自分のAIは素晴らしいと言う。私たちはむしろ勝率を見せて、モデル自身に語らせたい。

Reverie チーム

デフォルトで透明

すべてのモデルカードの 裏にある数字。

4つの指標を Reverie 上の実際の会話から計測 ― プレスリリースから写したベンダーのベンチマークではなく。

ブラインドA/B勝率

どちらのモデルが書いたか分からない状態で2つの返答を比較したとき、その選択を記録する。勝率はこのブラインド対決から、Wilson 信頼区間でスコア化される。

ユーザー高評価率

実際の返答へのグッド/バッドの一つひとつがモデル別の高評価率に集計され、各モデルが本物のロールプレイヤーにどう受け取られているかが見える。

最初のトークンまでの時間

モデルが答え始めるまでの時間 ― 平均、中央値、p95 を、自社インフラ上のライブトラフィックから計測。

毎秒トークン数

返答が流れ始めてからの素の生成速度。速いモデルは長いシーンを止めない ― それがどのモデルかが正確に分かる。

すべての品質統計にはサンプル数に基づく1–5つ星の信頼度が付く。数字を信じる前に、それがどれだけ確かなものか分かる。

新しいモデルは「評価中」の状態から始まる ― 正直に語れるだけのブラインド比較が蓄積されるまで、品質の主張なしで表示する。

現在のラインナップ

いまロスターにいる モデルたち。

モデルレジストリからライブで読み込み ― ラインナップが変われば、この表も一緒に変わる。

モデルコスト
DeepSeek V3.2ベーシック

DeepSeek

0.5× クレジット
DeepSeek V4 Flashベーシック

DeepSeek

0.3× クレジット
DeepSeek V4 Proベーシック

DeepSeek

0.7× クレジット
DeepSeek R1ベーシック

DeepSeek

1× クレジット
MiMo V2 Flashベーシック

Xiaomi

0.3× クレジット
MiMo V2.5ベーシック

Xiaomi

0.3× クレジット
GLM 4.5 Airベーシック

Z.AI

0.5× クレジット
GLM 4.7ベーシック

Z.AI

1× クレジット
GLM 5アドバンスド

Z.AI

1.3× クレジット
Gemini 3 Flash Previewアドバンスド

Google

1.2× クレジット
Llama 3.1 8Bベーシック

Meta

無料

クレジット倍率は基準クレジットレートに対する相対値。画像・動画生成モデルはチャット内で別途利用できます。

得られるもの

モデル選択に、 本当の意味を。

ここではモデル切り替えは設定メニューの隠し機能ではない。それがこのプロダクトの本来の使い方。

01

会話の途中で切り替え

スレッドを失わずにメッセージの合間でモデルを変更。山場のシーンには切れ味のいいモデルを、雑談には軽いものに戻して。

02

別のモデルで再生成

返答が気に入らない? 別のモデルで引き直して、読み心地のいい方を残せばいい。その選択が勝率統計に反映される。

03

キャラクター別のデフォルト

クリエイターはキャラクターごとに推奨モデルを設定でき、書かれたときのエンジンで話させられる。あなた自身の選択が常に優先される。

04

無料モデルは、いつでも

実力のある無料モデルがクレジット0でメニューに残り続ける(フェアユース制限あり) ― クレジット切れが会話切れを意味することはない。

05

正直なモデル別料金

各モデルにクレジット倍率を表示 ― 0.3× の省コストモデルから 2× のフロンティアモデルまで ― コストはあなたが選ぶもので、請求書のサプライズではない。

06

推論モデルも込み

込み入ったプロットには純粋な推論モデルを、求めたときだけ考えるハイブリッドも。シーンに合う頭脳を選ぼう。

よくある質問

モデルの 疑問。

品質データを公開するAIモデル選択

ほとんどのプラットフォームはモデルを1つ選び、ブランドを付けて、素晴らしいと言う。Reverie は多数を走らせ、互いにどう戦っているかの実績を公開する ― プロダクトの中、あなたが選ぶその場所で。

マーケティングではなく、ブラインドA/Bテスト

品質スコアは、匿名の2つの返答からユーザーが選んだ結果から生まれる。比較中はラベルもベンダーも見えないので、数字が測るのは文章であってブランドではない。

直接対決の戦績

集計スコアだけでなく、ピッカーには直接対決のデータも表示される ― どのモデルがどのモデルに、どれだけの差で勝っているか。ユーザーが実際に行った比較から。

すべての統計に信頼度

40回の比較によるスコアと4000回によるスコアは別物。各指標にはサンプル数から導いた1–5つ星の信頼度が付き、数字の横に表示される。

実トラフィックからのライブ速度統計

最初のトークンまでの時間と毎秒トークン数は、本番の会話から計測 ― 平均、中央値、p95 ― ベンダーのデータシートからの引用ではない。

ひとつのプラットフォーム、たくさんのエンジン

シーンが違えば、求める頭脳も違う。じっくり進む恋愛、戦術会議、テンポのいいコメディの応酬 ― 理想のモデルは同じではない。だから1つに縛られるべきではない。

マルチベンダーのラインナップ

DeepSeek、Google、Z.AI、Xiaomi、Meta などのチャットモデル。コンテキストウィンドウは 131K から100万トークンまで、すべて1つのインターフェースと1つのクレジット残高の中に。

透明なクレジット倍率

モデルは個別に価格付けされ、基準クレジットレートの 0.3× から 2× まで。倍率はモデルカードに明記。日常のシーンには安いモデルを、勝負どころにはフロンティアモデルを。

推論・マルチモーダルの選択肢

込み入ったプロットには書く前に考える専用推論モデルを。ハイブリッドモデルは求めに応じて推論し、マルチモーダルモデルはチャットにアップロードした画像を読める。

クレジット消費ゼロの無料モデル

無料モデルは残高に関係なく利用可能(フェアユース制限あり) ― すべての会話を支える床であって、期限切れになるトライアルではない。

準備ができたら

推測はやめて。 統計を読もう。

どのチャットからでもモデルピッカーを開き、数字で並べ替えて、お気に入りを見つけて。