एक दशक से भी अधिक समय से, संवादात्मक एआई ने मानव जैसे सहायकों का वादा किया है जो चैट से अधिक कुछ कर सकते हैं। फिर भी चैटजीपीटी, जेमिनी और क्लाउड जैसे बड़े भाषा मॉडल (एलएलएम) तर्क करना, समझाना और कोड करना सीखते हैं, बातचीत की एक महत्वपूर्ण श्रेणी काफी हद तक अनसुलझी रहती है – लोगों के लिए कार्यों को विश्वसनीय रूप से पूरा करना चैट के बाहर.
फिर भी सर्वश्रेष्ठ AI मॉडल केवल में स्कोर करते हैं टर्मिनल-बेंच हार्ड पर 30वाँ प्रतिशतक, विभिन्न ब्राउज़र-आधारित कार्यों को पूरा करने में एआई एजेंटों के प्रदर्शन का मूल्यांकन करने के लिए डिज़ाइन किया गया एक तृतीय-पक्ष बेंचमार्क, जो अधिकांश उद्यमों और उपयोगकर्ताओं द्वारा मांग की गई विश्वसनीयता से काफी कम है। और कार्य-विशिष्ट बेंचमार्क TAU-बेंच एयरलाइन की तरह, जो मापता है उड़ानें ढूंढने और बुक करने में एआई एजेंटों की विश्वसनीयता किसी उपयोगकर्ता की ओर से, पास दरें भी बहुत अधिक नहीं होती हैं शीर्ष प्रदर्शन करने वाले एजेंटों और मॉडलों के लिए केवल 56% (क्लाउड 3.7 सॉनेट) – जिसका अर्थ है कि एजेंट लगभग आधे समय विफल रहता है।
न्यूयॉर्क शहर स्थित संवर्धित इंटेलिजेंस (एयूआई) इंक.द्वारा सह-स्थापित ओहद एल्हेलो और ओरी कोहेनका मानना है कि यह आखिरकार एआई एजेंट की विश्वसनीयता को उस स्तर तक बढ़ाने के लिए एक समाधान लेकर आया है, जहां अधिकांश उद्यम भरोसा कर सकते हैं कि वे निर्देशानुसार, विश्वसनीय रूप से काम करेंगे।
कंपनी का नया फाउंडेशन मॉडल कहा जाता है अपोलो-1 – जो अभी शुरुआती परीक्षकों के साथ पूर्वावलोकन में है, लेकिन एक आसन्न सामान्य रिलीज के करीब है – इसे एक सिद्धांत पर बनाया गया है जिसे यह कहते हैं स्टेटफुल न्यूरो-प्रतीकात्मक तर्क।
यह एक हाइब्रिड आर्किटेक्चर है जिसका समर्थन ईवन ने भी किया है गैरी मार्कस जैसे एलएलएम संशयवादीप्रत्येक ग्राहक संपर्क में सुसंगत, नीति-अनुपालक परिणामों की गारंटी देने के लिए डिज़ाइन किया गया है।
वेंचरबीट के साथ हाल ही में एक साक्षात्कार में एल्हेलो ने कहा, “संवादात्मक एआई मूलतः दो हिस्से हैं।” “पहला भाग – ओपन-एंडेड संवाद – एलएलएम द्वारा खूबसूरती से संभाला जाता है। वे रचनात्मक या खोजपूर्ण उपयोग के मामलों के लिए डिज़ाइन किए गए हैं। दूसरा भाग कार्य-उन्मुख संवाद है, जहां बातचीत के पीछे हमेशा एक विशिष्ट लक्ष्य होता है। वह आधा हिस्सा अनसुलझा रह गया है क्योंकि इसमें निश्चितता की आवश्यकता होती है।”
एयूआई परिभाषित करता है निश्चितता एक एजेंट के बीच अंतर के रूप में जो “संभवतः” एक कार्य करता है और एक जो लगभग “हमेशा” करता है।
उदाहरण के लिए, पर टीएयू-बेंच एयरलाइन, यह आश्चर्यजनक 92.5% पास दर पर प्रदर्शन करती हैवेंचरबीट और के साथ साझा किए गए बेंचमार्क के अनुसार, अन्य सभी मौजूदा प्रतिस्पर्धियों को बहुत पीछे छोड़ दिया गया है एयूआई की वेबसाइट पर पोस्ट किया गया।
एल्हेलो ने सरल उदाहरण पेश किए: एक बैंक जिसे 200 डॉलर से अधिक के रिफंड के लिए आईडी सत्यापन लागू करना होगा, या एक एयरलाइन जिसे हमेशा इकोनॉमी से पहले बिजनेस-क्लास अपग्रेड की पेशकश करनी होगी।
“वे प्राथमिकताएँ नहीं हैं,” उन्होंने कहा। “वे आवश्यकताएं हैं। और कोई भी विशुद्ध रूप से उत्पादक दृष्टिकोण उस प्रकार की व्यवहारिक निश्चितता प्रदान नहीं कर सकता है।”
एयूआई और विश्वसनीयता में सुधार पर इसका काम पहले सदस्यता समाचार आउटलेट द्वारा कवर किया गया था सूचनालेकिन अब तक सार्वजनिक रूप से सुलभ मीडिया में इसे व्यापक कवरेज नहीं मिला है।
पैटर्न मिलान से लेकर पूर्वानुमानित कार्रवाई तक
टीम का तर्क है कि ट्रांसफार्मर मॉडल, डिज़ाइन के अनुसार, उस मानक को पूरा नहीं कर सकते हैं। बड़े भाषा मॉडल विश्वसनीय पाठ उत्पन्न करते हैं, गारंटीशुदा व्यवहार नहीं। एल्हेलो ने कहा, “जब आप किसी एलएलएम को भुगतान से पहले हमेशा बीमा की पेशकश करने के लिए कहते हैं, तो यह आमतौर पर हो सकता है।” “अपोलो-1 को उस नियम के साथ कॉन्फ़िगर करें, और यह हर बार होगा।”
उन्होंने कहा, यह अंतर वास्तुकला से ही उत्पन्न होता है। ट्रांसफार्मर एक क्रम में अगले टोकन की भविष्यवाणी करते हैं। इसके विपरीत, अपोलो-1, भविष्यवाणी करता है अगला कदम एक वार्तालाप में, एयूआई जिसे कॉल करता है उस पर काम कर रहा है टाइप की गई प्रतीकात्मक स्थिति.
कोहेन ने इस विचार को अधिक तकनीकी शब्दों में समझाया। उन्होंने कहा, “न्यूरो-प्रतीकात्मक का मतलब है कि हम दो प्रमुख प्रतिमानों का विलय कर रहे हैं।” “प्रतीकात्मक परत आपको संरचना देती है – यह जानती है कि एक इरादा, एक इकाई और एक पैरामीटर क्या हैं – जबकि तंत्रिका परत आपको भाषा प्रवाह प्रदान करती है। न्यूरो-प्रतीकात्मक तर्ककर्ता उनके बीच बैठता है। यह संवाद के लिए एक अलग तरह का मस्तिष्क है।”
जहां ट्रांसफार्मर प्रत्येक आउटपुट को टेक्स्ट जनरेशन के रूप में मानते हैं, अपोलो -1 एक बंद तर्क लूप चलाता है: एक एनकोडर प्राकृतिक भाषा को एक प्रतीकात्मक स्थिति में अनुवाद करता है, एक राज्य मशीन उस स्थिति को बनाए रखती है, एक निर्णय इंजन अगली कार्रवाई निर्धारित करता है, एक योजनाकार इसे निष्पादित करता है, और एक डिकोडर परिणाम को वापस भाषा में बदल देता है। कोहेन ने कहा, “प्रक्रिया पुनरावृत्तीय है।” “यह तब तक लूप करता है जब तक कार्य पूरा नहीं हो जाता। इस तरह आपको संभाव्यता के बजाय नियतिवाद मिलता है।”
कार्य निष्पादन के लिए एक फाउंडेशन मॉडल
पारंपरिक चैटबॉट्स या बीस्पोक ऑटोमेशन सिस्टम के विपरीत, अपोलो-1 एक के रूप में काम करने के लिए है फाउंडेशन मॉडल कार्य-उन्मुख संवाद के लिए – एक एकल, डोमेन-अज्ञेयवादी प्रणाली जिसे एयूआई के माध्यम से बैंकिंग, यात्रा, खुदरा या बीमा के लिए कॉन्फ़िगर किया जा सकता है सिस्टम प्रॉम्प्ट.
एल्हेलो ने कहा, “सिस्टम प्रॉम्प्ट एक कॉन्फ़िगरेशन फ़ाइल नहीं है।” “यह एक व्यवहारिक अनुबंध है। आप सटीक रूप से परिभाषित करते हैं कि आपके एजेंट को हित की स्थितियों में कैसा व्यवहार करना चाहिए, और अपोलो-1 गारंटी देता है कि उन व्यवहारों को निष्पादित किया जाएगा।”
संगठन प्रतीकात्मक स्लॉट – इरादों, मापदंडों और नीतियों – के साथ-साथ उपकरण सीमाओं और राज्य-निर्भर नियमों को एन्कोड करने के लिए प्रॉम्प्ट का उपयोग कर सकते हैं।
उदाहरण के लिए, एक खाद्य वितरण ऐप “यदि एलर्जी का उल्लेख किया गया है, तो हमेशा रेस्तरां को सूचित करें” लागू कर सकता है, जबकि एक दूरसंचार प्रदाता “तीन असफल भुगतान प्रयासों के बाद, सेवा निलंबित कर सकता है” को परिभाषित कर सकता है। दोनों ही मामलों में, व्यवहार सांख्यिकीय रूप से नहीं, बल्कि नियतात्मक रूप से निष्पादित होता है।
निर्माण में आठ वर्ष
अपोलो-1 के लिए एयूआई का मार्ग 2017 में शुरू हुआ, जब टीम ने 60,000-व्यक्ति मानव एजेंट कार्यबल द्वारा संचालित लाखों वास्तविक कार्य-उन्मुख वार्तालापों को एन्कोड करना शुरू किया।
उस कार्य से एक ऐसी प्रतीकात्मक भाषा का निर्माण हुआ जो अलग करने में सक्षम थी प्रक्रियात्मक ज्ञान – कदम, बाधाएं, और प्रवाह – से वर्णनात्मक ज्ञान संस्थाओं और विशेषताओं की तरह।
एल्हेलो ने कहा, “अंतर्दृष्टि यह थी कि कार्य-उन्मुख संवाद में सार्वभौमिक प्रक्रियात्मक पैटर्न होते हैं।” “खाद्य वितरण, दावा प्रसंस्करण, और ऑर्डर प्रबंधन सभी समान संरचनाएं साझा करते हैं। एक बार जब आप इसे स्पष्ट रूप से मॉडल कर लेते हैं, तो आप निश्चित रूप से इसकी गणना कर सकते हैं।”
वहां से, कंपनी ने न्यूरो-प्रतीकात्मक तर्ककर्ता का निर्माण किया – एक प्रणाली जो टोकन भविष्यवाणी के माध्यम से अनुमान लगाने के बजाय यह तय करने के लिए प्रतीकात्मक स्थिति का उपयोग करती है कि आगे क्या होगा।
बेंचमार्क सुझाव देते हैं कि वास्तुकला मापने योग्य अंतर लाती है।
एयूआई के अपने मूल्यांकन में, अपोलो-1 ने उपलब्धि हासिल की 90 प्रतिशत τ-बेंच-एयरलाइन बेंचमार्क पर कार्य पूरा करने की तुलना में 60 प्रतिशत क्लाउड-4 के लिए.
यह पूरा हुआ 83 प्रतिशत Google Flights पर लाइव बुकिंग चैट बनाम 22 प्रतिशत जेमिनी 2.5-फ्लैश के लिए, और 91 प्रतिशत अमेज़ॅन बनाम पर खुदरा परिदृश्यों का 17 प्रतिशत रूफस के लिए.
कोहेन ने कहा, “ये वृद्धिशील सुधार नहीं हैं।” “वे परिमाण के क्रम में विश्वसनीयता के अंतर हैं।”
एक पूरक, प्रतिस्पर्धी नहीं
एयूआई अपोलो-1 को बड़े भाषा मॉडल के प्रतिस्थापन के रूप में नहीं, बल्कि उनके आवश्यक समकक्ष के रूप में पेश कर रहा है। एल्हेलो के शब्दों में: “ट्रांसफॉर्मर रचनात्मक संभावना के लिए अनुकूलन करते हैं। अपोलो -1 व्यवहारिक निश्चितता के लिए अनुकूलन करता है। साथ में, वे संवादात्मक एआई का पूरा स्पेक्ट्रम बनाते हैं।”
यह मॉडल पहले से ही वित्त, यात्रा और खुदरा सहित क्षेत्रों में अघोषित फॉर्च्यून 500 कंपनियों के साथ सीमित पायलटों के रूप में चल रहा है।
AUI ने भी इसकी पुष्टि की है Google के साथ रणनीतिक साझेदारी और के लिए योजनाएं नवंबर 2025 में सामान्य उपलब्धताजब यह एपीआई खोलेगा, पूर्ण दस्तावेज जारी करेगा, और आवाज और छवि क्षमताओं को जोड़ेगा। इच्छुक संभावित ग्राहक और भागीदार अधिक जानकारी प्राप्त करने के लिए साइन अप कर सकते हैं एयूआई के वेबसाइट फॉर्म पर उपलब्ध हो जाता है।
तब तक, कंपनी विवरण गुप्त रखेगी। जब पूछा गया कि आगे क्या होगा, तो एल्हेलो मुस्कुराया। उन्होंने कहा, “मान लीजिए कि हम एक घोषणा तैयार कर रहे हैं।” “जल्द ही।”
वार्तालाप की ओर वह अधिनियम
अपने सभी तकनीकी परिष्कार के बावजूद, अपोलो -1 की पिच सरल है: एआई बनाएं जिस पर व्यवसाय कार्य करने के लिए भरोसा कर सकें – न कि केवल बात करने के लिए। कोहेन ने साक्षात्कार के अंत में कहा, “हम एआई तक पहुंच को लोकतांत्रिक बनाने के मिशन पर हैं जो काम करती है।”
क्या अपोलो-1 कार्य-उन्मुख संवाद के लिए नया मानक बन जाता है, यह देखना अभी बाकी है। लेकिन अगर एयूआई का आर्किटेक्चर वादे के मुताबिक प्रदर्शन करता है, तो मानवीय लगने वाले चैटबॉट और विश्वसनीय रूप से मानवीय कार्य करने वाले एजेंटों के बीच लंबे समय से चली आ रही दरार आखिरकार खत्म होनी शुरू हो सकती है।