बड़े भाषा मॉडल (एलएलएम) के कुछ सबसे बड़े प्रदाताओं ने मल्टीमॉडल चैटबॉट से आगे बढ़ने की मांग की है – अपने मॉडल को बाहर निकालते हुए "एजेंट" यह वास्तव में वेबसाइटों पर उपयोगकर्ता की ओर से अधिक कार्रवाई कर सकता है। याद करना Openai का चैटगेट एजेंट (पहले जाना जाता था "संचालक") और एन्थ्रोपिक का कंप्यूटर उपयोगदोनों ने पिछले दो वर्षों में रिलीज़ किया।
अब, Google उसी गेम में भी हो रहा है। आज, खोज विशालकाय दीपमाइंड एआई लैब सहायक कंपनी ने अपने शक्तिशाली मिथुन 2.5 प्रो एलएलएम के एक नए, फाइन-ट्यून्ड और कस्टम-प्रशिक्षित संस्करण का अनावरण किया के रूप में जाना जाता है "मिथुन 2.5 प्रो कंप्यूटर का उपयोग," किसे कर सकते हैं अपनी ओर से वेब पर सर्फ करने, जानकारी प्राप्त करने, फ़ॉर्म भरने और यहां तक कि वेबसाइटों पर कार्रवाई करने के लिए एक वर्चुअल ब्राउज़र का उपयोग करें – सभी उपयोगकर्ता के एकल पाठ प्रॉम्प्ट से।
"ये शुरुआती दिन हैं, लेकिन वेब के साथ बातचीत करने की मॉडल की क्षमता – जैसे स्क्रॉल करना, फॉर्म भरना + नेविगेटिंग ड्रॉपडाउन – एक है सामान्य उद्देश्य वाले एजेंटों के निर्माण में महत्वपूर्ण अगला कदम," कहा Google के सीईओ सुंदर पिचाई, के हिस्से के रूप में सोशल नेटवर्क पर लंबा बयान, एक्स।
हालांकि Google से सीधे उपभोक्ताओं के लिए मॉडल उपलब्ध नहीं है।
बजाय, Google ने भागीदारी की एक अन्य कंपनी के साथ, ब्राउज़रबेसद्वारा स्थापित 2024 की शुरुआत में पूर्व ट्विलियो इंजीनियर पॉल क्लेनजो आभासी प्रदान करता है "नेतृत्वहीन" वेब ब्राउज़र विशेष रूप से एआई एजेंटों और अनुप्रयोगों द्वारा उपयोग के लिए। (ए "नेतृत्वहीन" ब्राउज़र वह है जिसे वेब पर नेविगेट करने के लिए एक ग्राफिकल यूजर इंटरफेस, या जीयूआई की आवश्यकता नहीं है, हालांकि इस मामले में और अन्य, ब्राउज़रबेस उपयोगकर्ता के लिए एक ग्राफिकल प्रतिनिधित्व दिखाता है)।
उपयोगकर्ता नए मिथुन 2.5 कंप्यूटर का उपयोग करके सीधे ब्राउज़रबेस पर मॉडल का उपयोग कर सकते हैं यहाँ और यहां तक कि इसकी तुलना एक नए में ओपनई और एन्थ्रोपिक से पुराने, प्रतिद्वंद्वी प्रसाद के साथ साइड-बाय-साइड की तुलना करें "ब्राउज़र एरिना" स्टार्टअप द्वारा लॉन्च किया गया (हालांकि केवल एक अतिरिक्त मॉडल को एक समय में मिथुन के साथ चुना जा सकता है)।
एआई बिल्डरों और डेवलपर्स के लिए, यह एक कच्चे, यद्यपि प्रोप्रेटरिटरी एलएलएम के रूप में बनाया जा रहा है के माध्यम से Google AI स्टूडियो में GEMINI API के लिए तीव्र प्रोटोटाइपिंगऔर Google क्लाउड का वर्टेक्स एआई मॉडल चयनकर्ता और अनुप्रयोग निर्माण मंच।
नई पेशकश की क्षमताओं पर निर्माण होता है मिथुन 2.5 प्रो, मार्च 2025 में वापस जारी किया गया लेकिन जिसे तब से कई बार अपडेट किया गया है, एआई एजेंटों को ब्राउज़र और मोबाइल एप्लिकेशन सहित उपयोगकर्ता इंटरफेस के साथ प्रत्यक्ष इंटरैक्शन करने में सक्षम करने पर एक विशिष्ट ध्यान केंद्रित करने के साथ।
कुल मिलाकर, यह प्रतीत होता है GEMINI 2.5 कंप्यूटर का उपयोग डेवलपर्स को ऐसे एजेंट बनाने के लिए डिज़ाइन किया गया है जो इंटरफ़ेस-संचालित कार्यों को स्वायत्त रूप से पूरा कर सकते हैं-जैसे कि क्लिक करना, टाइप करना, स्क्रॉल करना, फॉर्म भरना और लॉगिन स्क्रीन के पीछे नेविगेट करना।
पूरी तरह से एपीआई या संरचित इनपुट पर भरोसा करने के बजाय, यह मॉडल एआई सिस्टम को नेत्रहीन और कार्यात्मक रूप से सॉफ्टवेयर के साथ बातचीत करने की अनुमति देता है, एक मानव की तरह बहुत कुछ।
संक्षिप्त उपयोगकर्ता हाथों पर परीक्षण
ब्राउज़बेस वेबसाइट पर मेरे संक्षिप्त, अवैज्ञानिक प्रारंभिक हाथों पर परीक्षण, जेमिनी 2.5 कंप्यूटर का उपयोग सफलतापूर्वक टेलर स्विफ्ट की आधिकारिक वेबसाइट पर नेविगेट करने के रूप में निर्देशित किया और मुझे एक सारांश प्रदान किया जो शीर्ष पर बेचा जा रहा था या प्रचारित किया जा रहा था-उसके नवीनतम एल्बम का एक विशेष संस्करण। "एक शोगर्ल का जीवन।"
एक अन्य परीक्षण में, मैंने मिथुन 2.5 कंप्यूटर का उपयोग अमेज़ॅन को उच्च रेटेड और अच्छी तरह से समीक्षा की गई सौर लाइट्स के लिए खोजने के लिए कहा, जिसे मैं अपने बैक यार्ड में दांव पर लगा सकता हूं, और मुझे यह देखने में खुशी हुई क्योंकि यह सफलतापूर्वक एक Google सर्च कैप्चा को पूरा करने के लिए डिज़ाइन किया गया था जो गैर-मानव उपयोगकर्ताओं को बाहर निकालने के लिए डिज़ाइन किया गया था (("मोटरसाइकिल के साथ सभी बक्से का चयन करें।") ऐसा कुछ सेकंड में किया।
हालांकि, एक बार जब यह वहां से हो गया, तो यह रुका हुआ था और कार्य को पूरा करने में असमर्थ था, बावजूद "टास्क ने प्रतिस्पर्धा की" संदेश।
मुझे यह भी ध्यान देना चाहिए कि जबकि Openai से चैटगेट एजेंट और नुकीला क्लाउड स्थानीय फ़ाइलों को बना और संपादित कर सकते हैं – जैसे कि PowerPoint प्रस्तुतियाँ, स्प्रेडशीट, या पाठ दस्तावेज़ – उपयोगकर्ता की ओर से, GEMINI 2.5 कंप्यूटर का उपयोग वर्तमान में प्रत्यक्ष फ़ाइल सिस्टम एक्सेस या देशी फ़ाइल निर्माण क्षमताओं की पेशकश नहीं करता है।
इसके बजाय, यह क्लिक करने, टाइपिंग और स्क्रॉलिंग जैसी क्रियाओं के माध्यम से वेब और मोबाइल उपयोगकर्ता इंटरफेस को नियंत्रित और नेविगेट करने के लिए डिज़ाइन किया गया है। इसका आउटपुट सुझाए गए यूआई क्रियाओं या चैटबॉट-स्टाइल टेक्स्ट प्रतिक्रियाओं तक सीमित है; किसी दस्तावेज़ या फ़ाइल की तरह किसी भी संरचित आउटपुट को डेवलपर द्वारा अलग से संभाला जाना चाहिए, अक्सर कस्टम कोड या तृतीय-पक्ष एकीकरण के माध्यम से।
प्रदर्शन धनी
Google का कहना है कि मिथुन 2.5 कंप्यूटर उपयोग ने कई इंटरफ़ेस नियंत्रण बेंचमार्क में अग्रणी परिणामों का प्रदर्शन किया है, खासकर जब क्लाउड सॉनेट और ओपनईएआई के एजेंट-आधारित मॉडल सहित अन्य प्रमुख एआई सिस्टम की तुलना में।
मूल्यांकन ब्राउज़रबेस और Google के स्वयं के परीक्षण के माध्यम से आयोजित किए गए थे।
कुछ हाइलाइट्स में शामिल हैं:
-
ऑनलाइन-mind2web (ब्राउज़रबेस): मिथुन 2.5 बनाम 61.0% (क्लाउड सॉनेट 4) और 44.3% (ओपनईएआई एजेंट) के लिए 65.7%
-
WebVoyager (ब्राउज़रबेस): मिथुन 2.5 बनाम 69.4% (क्लाउड सॉनेट 4) और 61.0% (ओपनईए एजेंट) के लिए 79.9%
-
AndroidWorld (DEEPMIND): मिथुन 2.5 बनाम 62.1% (क्लाउड सॉनेट 4) के लिए 69.7%; एक्सेस की कमी के कारण Openai के मॉडल को मापा नहीं जा सका
-
OSWORLD: वर्तमान में मिथुन 2.5 द्वारा समर्थित नहीं है; शीर्ष प्रतियोगी परिणाम 61.4% था
मजबूत सटीकता के अलावा, Google रिपोर्ट करता है कि मॉडल अन्य ब्राउज़र नियंत्रण समाधानों की तुलना में कम विलंबता पर संचालित होता है – उत्पादन उपयोग के मामलों में एक महत्वपूर्ण कारक यूआई स्वचालन और परीक्षण।
यह काम किस प्रकार करता है
कंप्यूटर उपयोग मॉडल द्वारा संचालित एजेंट एक इंटरैक्शन लूप के भीतर काम करते हैं। उन्हें प्राप्त हुआ:
-
एक उपयोगकर्ता कार्य प्रॉम्प्ट
-
इंटरफ़ेस का एक स्क्रीनशॉट
-
पिछले कार्यों का इतिहास
मॉडल इस इनपुट का विश्लेषण करता है और एक अनुशंसित यूआई कार्रवाई का उत्पादन करता है, जैसे कि एक बटन पर क्लिक करना या किसी फ़ील्ड में टाइप करना।
यदि आवश्यक हो, तो यह जोखिम वाले कार्यों के लिए अंतिम उपयोगकर्ता से पुष्टि का अनुरोध कर सकता है, जैसे कि खरीदारी करना।
एक बार कार्रवाई निष्पादित हो जाने के बाद, इंटरफ़ेस राज्य को अपडेट किया जाता है और एक नया स्क्रीनशॉट मॉडल को वापस भेजा जाता है। लूप तब तक जारी रहता है जब तक कि कार्य पूरा नहीं हो जाता है या त्रुटि या सुरक्षा निर्णय के कारण रोक दिया जाता है।
मॉडल एक विशेष उपकरण का उपयोग करता है जिसे कहा जाता है computer_use
और इसे टूल का उपयोग करके कस्टम वातावरण में एकीकृत किया जा सकता है नाटककार या के माध्यम से ब्राउज़रबेस डेमो सैंडबॉक्स।
मामलों और गोद लेने का उपयोग करें
Google के अनुसार, आंतरिक और बाह्य रूप से टीमों ने पहले ही कई डोमेन में मॉडल का उपयोग करना शुरू कर दिया है:
-
Google की भुगतान प्लेटफ़ॉर्म टीम रिपोर्ट करता है कि मिथुन 2.5 कंप्यूटर का उपयोग 60% से अधिक विफल परीक्षण निष्पादन में सफलतापूर्वक ठीक हो जाता है, जिससे इंजीनियरिंग अक्षमताओं के एक प्रमुख स्रोत को कम किया जाता है।
-
ऑटोटैबएक तृतीय-पक्ष एआई एजेंट प्लेटफॉर्म, ने कहा कि मॉडल ने दूसरों को जटिल डेटा पार्सिंग कार्यों पर बेहतर प्रदर्शन किया, उनके सबसे कठिन मूल्यांकन में प्रदर्शन को 18% तक बढ़ाया।
-
Poke.comएक सक्रिय एआई सहायक प्रदाता, ने कहा कि मिथुन मॉडल अक्सर संचालित होता है 50% तेजी से इंटरफ़ेस इंटरैक्शन के दौरान प्रतिस्पर्धा समाधान से।
मॉडल का उपयोग Google के स्वयं के उत्पाद विकास प्रयासों में भी किया जा रहा है, जिसमें भी शामिल है प्रोजेक्ट मेरिनर, फायरबेस परीक्षण एजेंटऔर खोज में एआई मोड।
सुरक्षा उपाय
क्योंकि यह मॉडल सीधे सॉफ़्टवेयर इंटरफेस को नियंत्रित करता है, Google सुरक्षा के लिए एक बहुस्तरीय दृष्टिकोण पर जोर देता है:
-
ए प्रति चरण सुरक्षा सेवा निष्पादन से पहले हर प्रस्तावित कार्रवाई का निरीक्षण करता है।
-
डेवलपर्स परिभाषित कर सकते हैं तंत्र-स्तरीय निर्देश विशिष्ट कार्यों के लिए पुष्टि करने या आवश्यकता की आवश्यकता है।
-
मॉडल में उन कार्यों से बचने के लिए अंतर्निहित सुरक्षा उपाय शामिल हैं जो सुरक्षा से समझौता कर सकते हैं या Google की निषिद्ध उपयोग नीतियों का उल्लंघन कर सकते हैं।
उदाहरण के लिए, यदि मॉडल एक कैप्चा का सामना करता है, तो यह चेकबॉक्स पर क्लिक करने के लिए एक कार्रवाई उत्पन्न करेगा, लेकिन इसे उपयोगकर्ता की पुष्टि की आवश्यकता के रूप में ध्वजांकित करेगा, यह सुनिश्चित करना कि सिस्टम मानव निरीक्षण के बिना आगे नहीं बढ़ता है।
तकनीकी क्षमता
मॉडल अंतर्निहित यूआई क्रियाओं की एक विस्तृत सरणी का समर्थन करता है जैसे:
-
click_at
,type_text_at
,scroll_document
,drag_and_drop
और अधिक -
मोबाइल या कस्टम वातावरण तक इसकी पहुंच बढ़ाने के लिए उपयोगकर्ता-परिभाषित फ़ंक्शन जोड़े जा सकते हैं
-
स्क्रीन निर्देशांक सामान्यीकृत (0–1000 पैमाने) हैं और निष्पादन के दौरान पिक्सेल आयामों पर वापस अनुवादित हैं
यह स्वीकार करता है छवि और पाठ इनपुट और आउटपुट पाठ प्रतिक्रियाएँ या समारोह कॉल कार्य करने के लिए। इष्टतम परिणामों के लिए अनुशंसित स्क्रीन रिज़ॉल्यूशन है 1440×900हालांकि यह अन्य आकारों के साथ काम कर सकता है।
एपीआई मूल्य निर्धारण लगभग मिथुन 2.5 प्रो के समान है
के लिए मूल्य निर्धारण मिथुन 2.5 कंप्यूटर का उपयोग मानक मिथुन 2.5 प्रो मॉडल के साथ निकटता से संरेखित करता है। दोनों एक ही प्रति-टोकन बिलिंग संरचना का पालन करते हैं: इनपुट टोकन की कीमत होती है $ 1.25 प्रति एक मिलियन टोकन 200,000 टोकन के तहत संकेतों के लिए, और $ 2.50 प्रति मिलियन टोकन उससे अधिक समय तक संकेत के लिए।
आउटपुट टोकन एक समान विभाजन का पालन करते हैं, जिसकी कीमत पर $ 10.00 प्रति मिलियन छोटी प्रतिक्रियाओं के लिए और $ 15.00 बड़े लोगों के लिए।
जहां मॉडल विचलन उपलब्धता और अतिरिक्त सुविधाओं में है।
मिथुन 2.5 प्रो में एक मुफ्त टियर शामिल है यह डेवलपर्स को बिना किसी लागत के मॉडल का उपयोग करने की अनुमति देता है, जिसमें कोई स्पष्ट टोकन कैप प्रकाशित नहीं है, हालांकि उपयोग प्लेटफ़ॉर्म (जैसे Google AI स्टूडियो) के आधार पर दर सीमा या कोटा बाधाओं के अधीन हो सकता है।
इस मुफ्त पहुंच में इनपुट और आउटपुट टोकन दोनों शामिल हैं। एक बार डेवलपर्स अपने आवंटित कोटा से अधिक हो जाते हैं या पेड टियर पर स्विच करते हैं, मानक प्रति टोकन मूल्य निर्धारण लागू होता है।
इसके विपरीत, मिथुन 2.5 कंप्यूटर का उपयोग पेड टियर के माध्यम से विशेष रूप से उपलब्ध है। वहाँ है कोई मुफ्त पहुंच नहीं वर्तमान में इस मॉडल के लिए पेशकश की गई है, और सभी उपयोग शुरू से ही टोकन-आधारित शुल्क लगाते हैं।
फ़ीचर-वार, जेमिनी 2.5 प्रो संदर्भ कैशिंग ($ 0.31 प्रति मिलियन टोकन से शुरू) जैसी वैकल्पिक क्षमताओं का समर्थन करता है और Google खोज के साथ ग्राउंडिंग (प्रति दिन 1,500 अनुरोधों के लिए मुफ्त, फिर $ 35 प्रति 1,000 अतिरिक्त अनुरोध)। ये इस समय कंप्यूटर के उपयोग के लिए उपलब्ध नहीं हैं।
एक और अंतर डेटा हैंडलिंग में है: कंप्यूटर उपयोग मॉडल से आउटपुट का उपयोग पेड टियर में Google उत्पादों को बेहतर बनाने के लिए नहीं किया जाता है, जबकि मिथुन 2.5 प्रो का फ्री-टियर उपयोग मॉडल सुधार में योगदान देता है जब तक कि स्पष्ट रूप से बाहर नहीं चुना जाता है।
कुल मिलाकर, डेवलपर्स दोनों मॉडलों में समान टोकन-आधारित लागतों की उम्मीद कर सकते हैं, लेकिन उन्हें टियर एक्सेस पर विचार करना चाहिए, क्षमताओं को शामिल करना चाहिए, और डेटा उपयोग नीतियों को यह तय करना चाहिए कि कौन सा मॉडल उनकी आवश्यकताओं को पूरा करता है।