마케팅이 아닌 진짜 데이터: 우리가 AI 모델에 순위를 매기는 방법

11월에 했던 약속

듀얼 응답 비교 블로그 에서 우리는 작은 부탁을 했습니다: 두 개의 AI 응답이 나란히 보일 때, 더 마음에 드는 쪽을 골라달라고요.

그 선택이 의미 있을 거라고 약속했습니다. 당신의 선호가 더 나은 모델을 추천하고, 라우팅을 최적화하고, "실제 사용자 선호에 부합하는 기능을 만드는 데" 도움이 될 거라고요.

오늘 출시하는 것이 그 약속을 실현한 첫 번째 기능입니다 ― 그리고 우리는 그 뒤에 있는 알고리즘을 끝까지 설명하려고 합니다. 투명성 자체가 이 기능의 핵심이기 때문입니다.

새로운 모델 선택기

아무 채팅에서나 모델 드롭다운을 열어보세요. 더 이상 단순한 이름 목록이 아닌 것을 알 수 있을 겁니다. 모든 모델에 두 가지 가시적 지표가 있습니다:

품질: 실제 A/B 비교에서 당신과 다른 사용자들이 이 모델을 얼마나 자주 선호했는지
속도: 최근 수백 건의 메시지에서 측정된 실제 응답 속도

그게 전부입니다. 마케팅 배지 없음. "에디터스 초이스" 없음. 업그레이드를 유도하기 위한 "프리미엄" 스티커 없음. 두 개의 숫자만, 둘 다 진짜 사용 데이터에서 나옵니다.

"품질"이 작동하는 방식 (그리고 왜 다른가)

대부분의 AI 플랫폼은 세 가지 방법 중 하나로 모델 순위를 매깁니다:

벤더 PR: "Anthropic이 새 모델을 냈으니 우리도 홍보한다."
내부 감각: "우리 팀이 한 시간 써보니 좋더라."
돈을 가장 많이 주는 곳: "이번 달은 파트너가 리베이트를 준다."

이 셋 중 어느 것도 모델이 롤플레이에 좋은지 알려주지 않습니다 ― 당신이 Reverie에 온 이유는 그것인데도요.

우리는 다르게 합니다:

1단계: 진짜 A/B 대결

듀얼 응답 비교가 표시되어 당신이 둘 중 하나를 선택할 때마다, 우리는 그 선택을 기록했습니다. 같은 프롬프트, 같은 캐릭터, 같은 컨텍스트 ― 다른 건 모델뿐이었습니다. 당신의 선택만이 유일한 신호였습니다.

몇 달이 지나면서, 우리는 플랫폼의 모든 활성 모델 쌍에 걸쳐 수만 건의 헤드 투 헤드 대결 기록을 축적했습니다.

2단계: 단순 승률이 아닌 Wilson Score

여기에 미묘하지만 중요한 디테일이 있습니다. 어떤 모델이 4승 1패라면 단순 승률은 80%입니다. 좋아 보이죠. 하지만 5개 샘플은 통계적 노이즈입니다. 800승 200패 모델의 승률도 80%지만, 후자가 명백히 더 신뢰할 만합니다.

우리는 Wilson Score Lower Bound 를 사용합니다 ― Reddit이 댓글 순위에 사용하는 것과 같은 알고리즘입니다. 이 알고리즘은 작은 샘플 크기에 페널티를 줍니다, 그래서 모델이 순위를 올리려면 "높은 선호율"과 "충분한 데이터" 둘 다가 필요합니다.

이것이 모든 모델 옆에 작은 신뢰도 점이 줄지어 있는 이유입니다: ●●●●○ 는 "이 모델의 데이터는 많다", ●●○○○ 는 "이 숫자는 곧이곧대로 받지 마라". 불확실성을 숨기지 않고 그대로 보여줍니다.

3단계: 절대적인 횟수는 절대 알려주지 않습니다

여기서 우리는 프라이버시 선을 그습니다. 선택기는 승률과 신뢰도 레벨을 보여주지만, 절대적인 대결 횟수는 절대 보여주지 않습니다. 어떤 모델은 1,200번 선택되었을 수도, 12,000번 선택되었을 수도 있습니다 ― 둘 다 "●●●●●"로만 보입니다. 구체적인 숫자를 노출하는 것은 우리의 사용자 수와 사용 패턴을 노출하는 것이기 때문입니다.

이것은 의도적인 트레이드오프입니다. 우리는 평가 자체를 신뢰받기를 원하지, 누구나 스크래핑할 수 있는 분석 대시보드가 되기를 원하지 않습니다.

"속도"가 작동하는 방식

품질은 하나의 숫자입니다. 속도는 벤더가 광고하는 벤치마크가 아닌, 실제 요청에서 측정해야 합니다.

우리가 처리하는 모든 메시지에는 그 응답의 실제 첫 토큰 지연 시간(TTFT) 과 초당 토큰 수를 기록한 메타데이터가 붙어 있습니다. 모델별로 가장 최근 약 50건을 집계하고, 중앙값(p50) 을 표시합니다 ― 평균이 아니라요.

왜 중앙값일까요? 평균은 이상치에 속기 때문입니다. 평소엔 빠른 모델이 지난주 세 번 밤에 느렸다고 합시다. 평균은 그 모델이 느리다고 말할 겁니다. 중앙값은 당신이 보통 경험할 속도를 알려줍니다 ― 그리고 그게 당신이 정말 신경 쓰는 거죠.

속도 표시 위에 마우스를 올리면 p95 도 볼 수 있습니다 ― 즉, 최악의 지연 시간입니다. 어떤 모델은 지연 분포가 타이트하고, 어떤 모델은 긴 꼬리를 가지고 있습니다. 이제 둘 다 볼 수 있습니다.

속도 바가 로그 스케일인 이유

1초 응답과 5초 응답 사이의 차이는 5초와 6초 사이의 차이보다 훨씬 크게 느껴집니다. 인간의 지연 인식은 로그적이므로, 속도 바는 [500ms, 20s] 범위에서 로그 스케일로 매핑됩니다.

이것은 첫 토큰까지 18초 걸리는 추론 모델(네, 이건 실제 데이터입니다)이 거의 빈 속도 바로 표시된다는 뜻입니다 ― 8초 모델보다 살짝 짧은 게 아니라요. 당신의 실제 체감에서 그 두 경험은 완전히 다르기 때문입니다.

우리가 의도적으로 하지 않는 것들

우리가 피하는 일들을 명확히 말해두고 싶습니다:

블랙박스 "당신을 위한 추천" 없음. 기본 정렬은 단순히 데이터입니다: Wilson Score 내림차순. Pro 모델이 위에 있는 건 단지 Pro 사용자가 돈을 냈기 때문이지, 우리가 수동으로 부스트했기 때문이 아닙니다. Pro 내, Free 내의 순서는 순수하게 데이터로 결정됩니다.
가짜 "새로워졌어요" 배지 없음. NEW 태그는 플랫폼에 추가된 지 14일 이내인 모델에만 붙습니다. 14일이 지나면 자동으로 사라집니다 ― 사람이 계속 핀으로 고정할 수 없습니다.
파트너 주도의 순위 없음. 어떤 AI 제공자로부터도 배치 비용을 받지 않습니다. 내일 OpenAI나 Anthropic이 우리 대결에서 꼴찌인 모델을 출시하면, 그건 진짜로 꼴찌에 놓입니다. (솔직히 우리는 그래도 출시하고 데이터가 말하게 할 겁니다.)
"가장 비싼 게 가장 좋다"는 거짓 없음. 우리의 가장 비싼 Pro 모델이 현재 플랫폼에서 품질 1위 모델은 아닙니다. 우리는 그것을 정직하게 표시합니다. 숨기지 않습니다.

"평가 중" 그룹

새로운 모델은 의미 있는 Wilson Score를 만들 만한 A/B 데이터가 부족합니다. 50% 승률을 그냥 붙여놓는 건 오해의 소지가 있습니다.

그래서 새 모델은 선택기 상단의 평가 중 그룹으로 들어갑니다. 속도(즉시 측정 가능)는 표시되지만 품질 자리에는 "데이터 수집 중"이라고 쓰여 있습니다. 충분한 대결이 쌓이면 자동으로 메인 순위 목록으로 졸업합니다.

당신이 보는 평가가 통계적으로 의미 있는 건지, 아니면 그냥 자리 표시자인지 항상 알 수 있습니다.

왜 이게 중요한가

AI 컴패니언 분야에는 "최고의 모델"이라고 떠들면서 단 하나의 숫자도 보여주지 않는 플랫폼들이 너무 많습니다. 일부는 저렴한 모델에 프리미엄 가격을 매깁니다. 일부는 그달 할인 중인 모델로 당신을 라우팅합니다. 일부는 그냥 감으로 합니다.

Reverie는 다른 기본값을 선택합니다: 진실을 말하고, 계산을 보여주고, 당신이 결정하게 합니다.

우리가 "이 모델은 좋다"고 말한다고 믿을 필요 없습니다. 바를 보고, 신뢰도 점을 보고, p95 위에 마우스를 올리고, 스스로 결정하면 됩니다. 숫자가 틀렸다고 생각된다면, 듀얼 응답 비교는 여전히 당신의 채팅에서 작동 중입니다 ― 다음 선호 투표가 그 숫자를 움직일 겁니다.

다시 한 번: 모두 공식 API

이전에 했던 말을 한 번 더 합니다: 선택기의 모든 모델은 공식 제공자 API를 통해 제공됩니다. 파인튜닝된 짝퉁 없음. 양자화된 대체품 없음. 서드파티의 "GPT-4 동급" 같은 수상한 모델 없음.

선택기가 "Claude Opus 4.6"이라고 표시하면, 당신이 대화하는 건 Claude Opus 4.6입니다. "DeepSeek V3.2"라고 표시하면 DeepSeek V3.2입니다. 품질 점수가 의미 있는 건 정확히 모델이 진짜이기 때문입니다.

다음은 무엇

선택기는 보이는 부분일 뿐입니다. 이 데이터로 더 많은 것을 하고 싶습니다:

캐릭터별 추천. 다른 모델은 다른 캐릭터 원형에 강합니다. 우리의 선호 데이터는 "이런 종류의 캐릭터에서는 사용자가 모델 X를 선호하는 경향이 있다"는 제안을 가능하게 해야 합니다.
개인화된 순위. 지금은 모두가 같은 글로벌 순위를 봅니다. 결국엔 당신 자신의 과거 선택에 기반해서 당신의 선호 모델이 위로 올라와야 합니다.
실시간 모델 헬스 알림. 제공자의 API가 안 좋은 날에 TTFT가 급등하면, 선택기는 다음 날이 아니라 한 시간 안에 그것을 반영해야 합니다.

하지만 그 모든 것은 정직한 데이터의 토대를 필요로 합니다. 오늘 출시하는 것이 그 토대입니다.

다음 채팅에서 모델 선택기를 열어보세요. 듀얼 응답 비교에서 투표한 적이 있다면, 당신이 보는 모든 숫자에 당신의 지문이 묻어 있습니다.

새 선택기 사용해보기 →