AI ग्रुप चैट बनाने के तीन तरीके: हमने कठिन रास्ता क्यों चुना

वह सवाल जिसने सब कुछ शुरू किया

"हर पात्र का अपना मैसेज बबल क्यों नहीं हो सकता, जैसे अन्य ऐप्स में होता है?"

हमें यह सवाल बहुत मिलता है। और सच कहें तो, यह एक बढ़िया सवाल है। ज्यादातर चैट ऐप्स संदेशों को अलग-अलग बबल्स के रूप में दिखाते हैं - प्रति व्यक्ति एक। तो हमारी ग्रुप चैट कई पात्रों के जवाबों को एक संदेश में क्यों जोड़ती है?

जवाब न तो आलस्य है और न ही लापरवाही। यह एक सोची-समझी इंजीनियरिंग पसंद है जो AI ग्रुप वार्तालाप के तीन मौलिक रूप से अलग दृष्टिकोणों के साथ महीनों के प्रयोग से पैदा हुई है।

तीन आर्किटेक्चर

मल्टी-कैरेक्टर AI वार्तालाप बनाते समय, हर प्लेटफॉर्म को एक ही निर्णय का सामना करना पड़ता है। इसे करने के ठीक तीन तरीके हैं, प्रत्येक का लागत, गुणवत्ता और उपयोगकर्ता अनुभव पर गहरा प्रभाव होता है।

1. स्ट्रक्चर्ड आउटपुट (JSON Arrays)

उद्योग में सबसे आम दृष्टिकोण। आप AI से एक JSON array वापस करने के लिए कहते हैं जहां प्रत्येक तत्व एक पात्र की प्रतिक्रिया का प्रतिनिधित्व करता है:

[
  {
    "speaker": "शर्लक",
    "emotion": "उत्सुक",
    "content": "दिलचस्प। मिट्टी का पैटर्न बताता है..."
  },
  {
    "speaker": "वॉटसन",
    "emotion": "भ्रमित",
    "content": "होम्स, आपका क्या मतलब है?"
  }
]

आकर्षण:

एकल API कॉल, एकल क्रेडिट खपत
अलग मैसेज बबल्स के रूप में पार्स और रेंडर करना आसान
समृद्ध मेटाडेटा शामिल कर सकते हैं (भावनाएं, क्रियाएं, दृश्य विवरण)
उपयोगकर्ता जवाब सुझाव बनाने के लिए उत्तम

वास्तविकता:

केवल महंगे प्रीमियम मॉडल (Claude, GPT-4) विश्वसनीय रूप से स्ट्रक्चर्ड आउटपुट का समर्थन करते हैं - अधिकांश सस्ते मॉडल सुसंगत JSON फॉर्मेटिंग में संघर्ष करते हैं
फॉर्मेट त्रुटियां पूरी प्रतिक्रिया को तोड़ देती हैं
JSON निर्देश टोकन खाते हैं, रचनात्मक स्थान को कम करते हैं
मॉडल "बंधे हुए" महसूस करते हैं - रचनात्मकता अक्सर प्रभावित होती है
सामग्री प्रतिबंध कड़े हो जाते हैं: स्ट्रक्चर्ड आउटपुट मोड अक्सर अधिक आक्रामक सामग्री फ़िल्टरिंग को ट्रिगर करता है, जिससे परिपक्व या साहसिक रोलप्ले परिदृश्य विफल होने की अधिक संभावना होती है
संदर्भ प्रदूषण: आपका वार्तालाप इतिहास JSON संरचनाओं से भर जाता है
त्रुटि हैंडलिंग जटिलता: स्ट्रीमिंग के बीच में पार्सिंग विफल होने पर क्या होता है?

अधिकांश थर्ड-पार्टी कैरेक्टर प्लेटफॉर्म इस दृष्टिकोण का उपयोग करते हैं। यह काम करता है, लेकिन बाधाएं वास्तविक हैं।

2. टूल कॉलिंग (एजेंट मोड)

सबसे "बुद्धिमान" दृष्टिकोण। AI तय करता है कि अगला कौन सा पात्र बोलना चाहिए, इसे इंगित करने के लिए एक टूल कॉल करता है, फिर उस पात्र की प्रतिक्रिया उत्पन्न करता है। दृश्य पूरा होने तक दोहराएं।

AI सोचता है: "वॉटसन को इस खुलासे पर प्रतिक्रिया देनी चाहिए"
→ टूल कॉल करता है: next_speaker("वॉटसन")
→ वॉटसन की प्रतिक्रिया उत्पन्न करता है
→ AI सोचता है: "अब शर्लक बीच में बोलेगा"
→ टूल कॉल करता है: next_speaker("शर्लक")
→ शर्लक की प्रतिक्रिया उत्पन्न करता है
...

आकर्षण:

सबसे प्राकृतिक वार्तालाप प्रवाह
AI का दृश्य गति पर पूर्ण रचनात्मक नियंत्रण
प्रत्येक पात्र प्रतिक्रिया को समर्पित जनरेशन गुणवत्ता मिलती है
स्वाभाविक रूप से प्रति पात्र अलग संदेश उत्पन्न करता है

वास्तविकता:

कई API कॉल = कई क्रेडिट शुल्क
विलंबता जमा होती है: N पात्र = N राउंड ट्रिप
केवल हाई-एंड मॉडल (Claude, GPT-4) विश्वसनीय रूप से टूल कॉलिंग संभालते हैं - सस्ते मॉडल अक्सर विफल होते हैं या टूल कॉल का भ्रम पैदा करते हैं
कॉल के बीच जटिल स्टेट मैनेजमेंट
अनंत लूप या अप्रत्याशित समाप्ति का जोखिम
डिबगिंग दुःस्वप्न: समस्याओं को पुन: उत्पन्न करना कठिन है

यह "ड्रीम आर्किटेक्चर" है जो कागज पर सुंदर दिखता है लेकिन बड़े पैमाने पर परिचालन सिरदर्द पैदा करता है।

3. फ्री-फॉर्म टेक्स्ट आउटपुट (हमारी वर्तमान पसंद)

सबसे सरल दृष्टिकोण। AI से दृश्य को स्वाभाविक रूप से लिखने के लिए कहें, इसे तय करने दें कि प्रवाहमय गद्य में कई पात्रों को कैसे प्रस्तुत करें:

शर्लक आगे झुका, आंखें तेज। "दिलचस्प। मिट्टी का
पैटर्न बताता है कि हमारा संदिग्ध पूर्व की ओर से आया था।"

वॉटसन ने भौंहें सिकोड़ीं। "होम्स, आपका क्या मतलब है? यह तो बस मिट्टी है।"

"बस मिट्टी?" शर्लक मुस्कुराया। "मेरे प्यारे वॉटसन,
कुछ भी 'बस' नहीं होता।"

आकर्षण:

हर AI मॉडल के साथ काम करता है, कोई विशेष सुविधाएं आवश्यक नहीं
अधिकतम रचनात्मक स्वतंत्रता - AI स्वाभाविक रूप से लिखता है
स्वच्छ संदर्भ: वार्तालाप इतिहास एक उपन्यास की तरह पढ़ता है
उत्कृष्ट स्ट्रीमिंग अनुभव
एकल कॉल, पूर्वानुमानित लागत
लागू करने और बनाए रखने में सबसे सरल

वास्तविकता:

सभी पात्र एक संदेश ब्लॉक में
आसानी से एकल पात्र की प्रतिक्रिया पुनर्जनन नहीं कर सकते
UI लचीलापन सीमित है
चैट-स्टाइल बबल्स की उम्मीद करने वाले उपयोगकर्ता भ्रमित हो सकते हैं

हमने यह कठिन तरीके से सीखा

यहाँ कुछ है जो हमने पहले सार्वजनिक रूप से साझा नहीं किया है: हमारे ग्रुप चैट का पहला संस्करण टूल कॉलिंग का उपयोग करता था।

हम "ड्रीम आर्किटेक्चर" में विश्वास करते थे। AI तय करता है कि अगला कौन बोलेगा, हर पात्र को समर्पित जनरेशन मिलता है, सुंदर अलग मैसेज बबल्स। यह सुरुचिपूर्ण था। यह बुद्धिमान था। यह प्रोडक्शन में एक आपदा भी था।

उपयोगकर्ताओं ने अप्रत्याशित लागतों का अनुभव किया - कभी-कभी उसी वार्तालाप के लिए उनकी अपेक्षा से 3 गुना अधिक। प्रतिक्रिया समय इस बात पर निर्भर करता था कि AI कितने पात्रों को शामिल करने का निर्णय लेता है। सस्ते मॉडल टूल कॉल का भ्रम पैदा करते थे या लूप में फंस जाते थे। हमारे त्रुटि लॉग उन एज केसेस से भर गए जिनकी हमने कभी उम्मीद नहीं की थी।

पैच और वर्कअराउंड के महीनों के बाद, हमने शुरू से फ्री-फॉर्म टेक्स्ट आउटपुट के साथ पुनर्निर्माण करने का कठिन निर्णय लिया। यह एक कदम पीछे जैसा लगा। लेकिन कभी-कभी "कम बुद्धिमान" समाधान ही समझदार विकल्प होता है।

हमने यह पसंद क्यों की

तीनों दृष्टिकोणों का व्यापक परीक्षण करने के बाद - और एक को प्रोडक्शन में शिप करने के बाद - हमने ग्रुप चैट के लिए फ्री-फॉर्म टेक्स्ट आउटपुट चुना। यहाँ कारण है:

सुविधाओं से अधिक स्थिरता - स्ट्रक्चर्ड आउटपुट अप्रत्याशित रूप से विफल होता है। जब आपकी ग्रुप चैट बातचीत के बीच में टूट जाती है, तो उपयोगकर्ताओं को अलग बबल्स की परवाह नहीं होती - वे बस चाहते हैं कि यह काम करे। फ्री-फॉर्म टेक्स्ट कभी भी फॉर्मेट समस्याओं के कारण विफल नहीं होता।

मात्रा से अधिक गुणवत्ता - बंधे हुए फॉर्मेट सूक्ष्म रूप से AI रचनात्मकता को कम करते हैं। जब हमने आउटपुट की तुलना की, फ्री-फॉर्म ने लगातार अधिक जीवंत, प्राकृतिक-महसूस होने वाले पात्र इंटरैक्शन उत्पन्न किए। AI कहानी सुनाने पर ध्यान केंद्रित कर सकता था बजाय JSON सिंटैक्स के।

लागत पूर्वानुमेयता - एजेंट मोड प्रति पात्र प्रति प्रतिक्रिया शुल्क लेता है। पांच पात्रों वाला दृश्य अपेक्षा से 5-10 गुना अधिक खर्च कर सकता है। उपयोगकर्ता पूर्वानुमानित मूल्य निर्धारण के हकदार हैं।

सार्वभौमिक संगतता - हम कई AI मॉडल का समर्थन करते हैं। सभी स्ट्रक्चर्ड आउटपुट या टूल कॉलिंग को समान रूप से अच्छी तरह से समर्थन नहीं करते। फ्री-फॉर्म टेक्स्ट हर जगह काम करता है, उपयोगकर्ताओं को अधिक मॉडल विकल्प देता है।

वह समझौता जो हम स्वीकार करते हैं

हाँ, हम "प्रति पात्र एक बबल" अनुभव का त्याग करते हैं। लेकिन हम पाते हैं:

अडिग विश्वसनीयता
बेहतर रचनात्मक गुणवत्ता
पूर्वानुमानित लागत
व्यापक मॉडल समर्थन
स्वच्छ वार्तालाप इतिहास

ग्रुप रोलप्ले के लिए, जहां इमर्शन सबसे महत्वपूर्ण है, हम मानते हैं कि यह समझौता इसके लायक है।

आने वाला है: स्टोरी मोड

यहाँ कुछ रोमांचक है: हम एक नया स्टोरी मोड बना रहे हैं जो स्ट्रक्चर्ड आउटपुट का उपयोग करता है।

अलग दृष्टिकोण क्यों? स्टोरी मोड की अलग प्राथमिकताएं हैं:

सटीक दृश्य नियंत्रण फ्रीफॉर्म रचनात्मकता से अधिक महत्वपूर्ण है
समृद्ध मेटाडेटा (कैमरा एंगल, संगीत संकेत, अध्याय विराम) मूल्य जोड़ता है
फॉर्मेट अधिक पूर्वानुमानित है (स्पष्ट अध्याय/दृश्य संरचना)
उपयोगकर्ता अधिक "प्रोड्यूस्ड" अनुभव की उम्मीद करते हैं

विभिन्न उपयोग मामले विभिन्न आर्किटेक्चर के हकदार हैं। हम किसी एकल दृष्टिकोण के प्रति कट्टर नहीं हैं - हम वह चुनते हैं जो उपयोगकर्ताओं की सबसे अच्छी सेवा करे।

ईमानदार सच्चाई

मल्टी-कैरेक्टर AI वार्तालाप का कोई सही समाधान नहीं है। हर दृष्टिकोण कुछ मूल्यवान को किसी और चीज़ के लिए व्यापार करता है।

अन्य प्लेटफॉर्म जो अलग बबल्स दिखाते हैं? वे संभवतः स्ट्रक्चर्ड आउटपुट का उपयोग कर रहे हैं और इसकी सीमाओं को स्वीकार कर रहे हैं। अधिक "बुद्धिमान" दृश्य नियंत्रण वाले प्लेटफॉर्म? शायद उच्च लागत और विलंबता के साथ टूल कॉलिंग।

हमने वह रास्ता चुना जो हमारे उपयोगकर्ताओं को सबसे अधिक महत्व देता है: विश्वसनीय, रचनात्मक, लागत-प्रभावी ग्रुप रोलप्ले।

अलग बबल अनुभव अच्छा है। लेकिन बाकी सब कुछ की कीमत पर नहीं।

हम क्या खोज रहे हैं

हम हाइब्रिड दृष्टिकोणों के साथ प्रयोग कर रहे हैं:

पोस्ट-प्रोसेसिंग पार्सिंग: जनरेशन के बाद फ्री-फॉर्म टेक्स्ट को कैरेक्टर सेगमेंट में विभाजित करने के लिए हल्के मॉडल का उपयोग
वैकल्पिक स्ट्रक्चर्ड मोड: पावर उपयोगकर्ताओं को सटीक नियंत्रण की आवश्यकता होने पर स्ट्रक्चर्ड आउटपुट चुनने की अनुमति
स्मार्ट सीन डिटेक्शन: बेहतर UI प्रस्तुति के लिए प्राकृतिक ब्रेक पॉइंट की स्वचालित पहचान

लक्ष्य "सही" उत्तर खोजना नहीं है। यह काम करने वाली चीज़ों को बनाए रखते हुए अनुभव को बेहतर बनाते रहना है।

ग्रुप चैट कैसे काम करनी चाहिए इस पर विचार हैं? हमें आपसे सुनकर खुशी होगी।

AI ग्रुप चैट बनाने के तीन तरीके: हमने कठिन रास्ता क्यों चुना

वह सवाल जिसने सब कुछ शुरू किया

तीन आर्किटेक्चर

1. स्ट्रक्चर्ड आउटपुट (JSON Arrays)

2. टूल कॉलिंग (एजेंट मोड)

3. फ्री-फॉर्म टेक्स्ट आउटपुट (हमारी वर्तमान पसंद)

हमने यह कठिन तरीके से सीखा

हमने यह पसंद क्यों की

वह समझौता जो हम स्वीकार करते हैं

आने वाला है: स्टोरी मोड

ईमानदार सच्चाई

हम क्या खोज रहे हैं

डायनामिक AI बातचीत का अनुभव करने के लिए तैयार?