Tiga Cara Membangun Obrolan Grup AI: Mengapa Kami Memilih Jalan yang Sulit

Reverie Team
12/9/2025

Pertanyaan yang Memulai Segalanya
"Mengapa setiap karakter tidak bisa punya gelembung pesan sendiri, seperti aplikasi lain?"
Kami sering mendapat pertanyaan ini. Dan jujur saja, ini pertanyaan yang bagus. Kebanyakan aplikasi chat menampilkan pesan sebagai gelembung terpisah - satu per orang. Jadi mengapa obrolan grup kami menggabungkan beberapa respons karakter menjadi satu pesan?
Jawabannya bukan kemalasan atau kelalaian. Ini adalah pilihan teknis yang disengaja, lahir dari berbulan-bulan eksperimen dengan tiga pendekatan yang secara fundamental berbeda untuk percakapan grup AI.
Tiga Arsitektur
Saat membangun percakapan AI multi-karakter, setiap platform menghadapi keputusan yang sama. Ada tepat tiga cara untuk melakukannya, masing-masing dengan implikasi mendalam pada biaya, kualitas, dan pengalaman pengguna.
1. Output Terstruktur (Array JSON)
Pendekatan paling umum di industri. Anda meminta AI untuk mengembalikan array JSON di mana setiap elemen mewakili respons karakter:
[
{
"speaker": "Sherlock",
"emotion": "tertarik",
"content": "Menarik. Pola lumpur menunjukkan..."
},
{
"speaker": "Watson",
"emotion": "bingung",
"content": "Holmes, apa maksud Anda?"
}
]
Daya Tarik:
- Satu panggilan API, satu konsumsi kredit
- Mudah diparse dan dirender sebagai gelembung pesan terpisah
- Dapat menyertakan metadata kaya (emosi, aksi, deskripsi adegan)
- Sempurna untuk menghasilkan saran balasan pengguna
Kenyataan:
- Hanya model premium mahal (Claude, GPT-4) yang mendukung output terstruktur dengan andal - kebanyakan model terjangkau kesulitan dengan format JSON yang konsisten
- Kesalahan format merusak seluruh respons
- Instruksi JSON mengonsumsi token, mengurangi ruang kreatif
- Model terasa "terkekang" - kreativitas sering menderita
- Pembatasan konten menjadi lebih ketat: mode output terstruktur sering memicu penyaringan konten yang lebih agresif, membuat skenario roleplay dewasa atau berani lebih mungkin gagal
- Polusi konteks: riwayat percakapan Anda dipenuhi struktur JSON
- Kompleksitas penanganan error: apa yang terjadi ketika parsing gagal di tengah streaming?
Kebanyakan platform karakter pihak ketiga menggunakan pendekatan ini. Berhasil, tapi batasannya nyata.
2. Pemanggilan Alat (Mode Agen)
Pendekatan paling "cerdas". AI memutuskan karakter mana yang harus berbicara selanjutnya, memanggil alat untuk menunjukkan ini, lalu menghasilkan respons karakter tersebut. Ulangi sampai adegan terasa lengkap.
AI berpikir: "Watson harus bereaksi terhadap pengungkapan ini"
→ memanggil alat: next_speaker("Watson")
→ menghasilkan respons Watson
→ AI berpikir: "Sekarang Sherlock akan menyela"
→ memanggil alat: next_speaker("Sherlock")
→ menghasilkan respons Sherlock
...
Daya Tarik:
- Alur percakapan paling alami
- AI memiliki kontrol kreatif penuh atas tempo adegan
- Setiap respons karakter mendapat kualitas generasi khusus
- Secara alami menghasilkan pesan terpisah per karakter
Kenyataan:
- Beberapa panggilan API = beberapa biaya kredit
- Latensi menumpuk: N karakter = N perjalanan bolak-balik
- Hanya model kelas atas (Claude, GPT-4) yang menangani pemanggilan alat dengan andal - model lebih murah sering gagal atau berhalusinasi panggilan alat
- Manajemen state kompleks antar panggilan
- Risiko loop tak terbatas atau penghentian tak terduga
- Mimpi buruk debugging: masalah sulit direproduksi
Ini adalah "arsitektur impian" yang terlihat indah di atas kertas tapi menciptakan sakit kepala operasional dalam skala besar.
3. Output Teks Bebas (Pilihan Kami Saat Ini)
Pendekatan paling sederhana. Minta AI untuk menulis adegan secara alami, membiarkannya memutuskan cara menyajikan beberapa karakter dalam prosa yang mengalir:
Sherlock mencondongkan tubuh ke depan, mata tajam. "Menarik. Pola
lumpur menunjukkan tersangka kita datang dari sisi timur."
Watson mengerutkan kening. "Holmes, apa maksud Anda? Itu hanya lumpur."
"Hanya lumpur?" Sherlock tersenyum. "Watson sayang, tidak ada
yang namanya 'hanya' apa pun."
Daya Tarik:
- Bekerja dengan setiap model AI, tidak perlu fitur khusus
- Kebebasan kreatif maksimum - AI menulis secara alami
- Konteks bersih: riwayat percakapan terbaca seperti novel
- Pengalaman streaming yang sangat baik
- Satu panggilan, biaya dapat diprediksi
- Paling sederhana untuk diimplementasi dan dipelihara
Kenyataan:
- Semua karakter dalam satu blok pesan
- Tidak bisa dengan mudah meregenerasi respons satu karakter
- Fleksibilitas UI terbatas
- Pengguna yang mengharapkan gelembung gaya chat mungkin bingung
Kami Belajar Ini dengan Cara yang Sulit
Inilah sesuatu yang belum pernah kami bagikan secara publik sebelumnya: versi pertama obrolan grup kami menggunakan pemanggilan alat.
Kami percaya pada "arsitektur impian." AI memutuskan siapa yang berbicara selanjutnya, setiap karakter mendapat generasi khusus, gelembung pesan terpisah yang indah. Elegan. Cerdas. Juga bencana di produksi.
Pengguna mengalami biaya yang tidak dapat diprediksi - kadang 3x dari yang mereka harapkan untuk percakapan yang sama. Waktu respons bervariasi liar tergantung berapa banyak karakter yang AI putuskan untuk dilibatkan. Model lebih murah berhalusinasi panggilan alat atau terjebak dalam loop. Log error kami dipenuhi kasus-kasus edge yang tidak pernah kami antisipasi.
Setelah berbulan-bulan patch dan workaround, kami membuat keputusan sulit untuk membangun ulang dari awal dengan output teks bebas. Rasanya seperti langkah mundur. Tapi kadang solusi yang "kurang cerdas" adalah pilihan yang lebih bijak.
Mengapa Kami Membuat Pilihan Ini
Setelah menguji ketiga pendekatan secara ekstensif - dan mengirim satu ke produksi - kami memilih output teks bebas untuk obrolan grup. Inilah alasannya:
Stabilitas di Atas Fitur - Output terstruktur gagal secara tidak dapat diprediksi. Ketika obrolan grup Anda rusak di tengah percakapan, pengguna tidak peduli lagi tentang gelembung terpisah - mereka hanya ingin itu berfungsi. Teks bebas tidak pernah gagal karena masalah format.
Kualitas di Atas Kuantitas - Format terbatas secara halus mengurangi kreativitas AI. Ketika kami membandingkan output, teks bebas secara konsisten menghasilkan interaksi karakter yang lebih hidup dan terasa alami. AI bisa fokus pada bercerita daripada sintaks JSON.
Prediktabilitas Biaya - Mode agen mengenakan biaya per karakter per respons. Adegan lima karakter bisa menghabiskan biaya 5-10x lebih dari yang diharapkan. Pengguna layak mendapat harga yang dapat diprediksi.
Kompatibilitas Universal - Kami mendukung beberapa model AI. Tidak semua mendukung output terstruktur atau pemanggilan alat sama baiknya. Teks bebas bekerja di mana saja, memberi pengguna lebih banyak pilihan model.
Trade-Off yang Kami Terima
Ya, kami mengorbankan pengalaman "satu gelembung per karakter". Tapi kami mendapat:
- Keandalan yang kokoh
- Kualitas kreatif yang lebih baik
- Biaya yang dapat diprediksi
- Dukungan model yang lebih luas
- Riwayat percakapan yang lebih bersih
Untuk roleplay grup, di mana imersi paling penting, kami percaya trade-off ini layak.
Yang Akan Datang: Mode Cerita
Inilah sesuatu yang menarik: kami sedang membangun Mode Cerita baru yang menggunakan output terstruktur.
Mengapa pendekatan berbeda? Mode Cerita memiliki prioritas berbeda:
- Kontrol adegan yang presisi lebih penting daripada kreativitas bebas
- Metadata kaya (sudut kamera, isyarat musik, jeda bab) menambah nilai
- Format lebih dapat diprediksi (struktur bab/adegan yang jelas)
- Pengguna mengharapkan pengalaman yang lebih "diproduksi"
Kasus penggunaan berbeda layak mendapat arsitektur berbeda. Kami tidak fanatik terhadap satu pendekatan - kami memilih apa yang paling baik melayani pengguna.
Kebenaran yang Jujur
Tidak ada solusi sempurna untuk percakapan AI multi-karakter. Setiap pendekatan menukar sesuatu yang berharga dengan sesuatu yang lain.
Platform lain yang menampilkan gelembung terpisah? Mereka mungkin menggunakan output terstruktur dan menerima batasannya. Platform dengan kontrol adegan yang lebih "cerdas"? Mungkin pemanggilan alat dengan biaya dan latensi lebih tinggi.
Kami memilih jalur yang memprioritaskan apa yang paling dihargai pengguna kami: roleplay grup yang andal, kreatif, dan hemat biaya.
Pengalaman gelembung terpisah memang bagus. Tapi tidak dengan mengorbankan segalanya.
Yang Sedang Kami Eksplorasi
Kami sedang bereksperimen dengan pendekatan hybrid:
- Parsing pasca-pemrosesan: Menggunakan model ringan untuk membagi teks bebas menjadi segmen karakter setelah generasi
- Mode terstruktur opsional: Membiarkan power user memilih output terstruktur ketika mereka butuh kontrol presisi
- Deteksi adegan cerdas: Mengidentifikasi titik jeda alami secara otomatis untuk presentasi UI yang lebih baik
Tujuannya bukan menemukan jawaban yang "benar". Ini tentang terus meningkatkan pengalaman sambil mempertahankan apa yang berhasil.
Punya pemikiran tentang bagaimana obrolan grup seharusnya bekerja? Kami senang mendengar dari Anda.
Siap untuk Mengalami Percakapan AI Dinamis?
Bergabunglah dengan ribuan pengguna yang sudah menjelajahi kepribadian tak terbatas dan interaksi menarik di Reverie.