पब्लिश होने की तारीख: 22 मई, 2025
एआई, वेब डेवलपर के वेबसाइट और वेब ऐप्लिकेशन बनाने के तरीके में बदलाव कर रहा है. हमने Google I/O 2025 में बताया कि हमने पिछले साल किन चीज़ों पर काम किया. साथ ही, यह भी दिखाया कि हमारे पार्टनर, वेब पर एआई का इस्तेमाल कैसे कर रहे हैं. इसके अलावा, हमने एआई की सुविधा वाले नए एपीआई का एलान किया.
क्या आपने इवेंट मिस कर दिया? खुशखबरी! अब इन टॉक्स को ऑन-डिमांड देखा जा सकता है!
Chrome में Gemini Nano के साथ काम करने वाला एआई
हमारा मुख्य मकसद, Chrome और वेब को सभी डेवलपर और सभी उपयोगकर्ताओं के लिए बेहतर बनाना है. इस बातचीत में, थॉमस स्टाइनर ने बिल्ट-इन एआई के अपडेट, इस्तेमाल के उदाहरण, और आने वाले समय में एआई के इस्तेमाल के बारे में जानकारी दी है.
इसमें पहले से मौजूद एआई, ब्राउज़र में क्लाइंट-साइड मॉडल चलाता है. इससे कई फ़ायदे मिलते हैं:
- निजी: उपयोगकर्ता का संवेदनशील डेटा, डिवाइस पर ही रहता है. इसे कभी भी ब्राउज़र से बाहर नहीं भेजा जाता.
- ऑफ़लाइन: ऐप्लिकेशन, इंटरनेट कनेक्शन न होने पर भी एआई की सुविधाओं को ऐक्सेस कर सकते हैं.
- बेहतर परफ़ॉर्मेंस: हार्डवेयर से तेज़ी लाने की सुविधा की वजह से, ये एपीआई बेहतरीन परफ़ॉर्मेंस देते हैं.
पहले से मौजूद एआई एपीआई के लिए कोड सैंपल देखें. साथ ही, उनकी स्थिति के बारे में अपडेट पाएं. यह भी देखें कि कौनसी कंपनियां इस टेक्नोलॉजी को लागू कर रही हैं.
मल्टीमॉडल एपीआई
हम बिलकुल नए मल्टीमॉडल एपीआई पर काम कर रहे हैं. इसका मतलब है कि Gemini Nano को विज़ुअल कॉन्टेंट में "दिखने" वाली या ऑडियो कॉन्टेंट में "सुनाई देने" वाली चीज़ों के बारे में पूछा जा सकता है. उदाहरण के लिए, किसी ब्लॉग प्लैटफ़ॉर्म पर अपलोड की गई इमेज के लिए वैकल्पिक टेक्स्ट के सुझाव पाएं. उपयोगकर्ता इन सुझावों को बेहतर बना सकते हैं और उनमें बदलाव कर सकते हैं. इसके अलावा, Gemini Nano से पॉडकास्ट के लिए ब्यौरे या ट्रांसक्रिप्ट लिखने के लिए कहा जा सकता है.
हाइब्रिड एआई
क्लाइंट-साइड एआई के साथ डेवलपर को एक समस्या का सामना करना पड़ता है. वह यह है कि सभी प्लैटफ़ॉर्म और ब्राउज़र, डिवाइस पर मॉडल चलाने के लिए हार्डवेयर से जुड़ी ज़रूरी शर्तों को पूरा नहीं करते. Gemini और Firebase ने मिलकर Firebase Web SDK बनाया है. इससे क्लाइंट-साइड पर Gemini Nano की सुविधा उपलब्ध न होने पर, सर्वर पर Gemini Nano का इस्तेमाल किया जा सकता है.
आपके साथ काम करना
हमें खुशी है कि हमने एआई की सुविधा वाले एपीआई पर कई डेवलपर के साथ काम किया. आपकी मदद के बिना, हम ये काम नहीं कर सकते.
- अर्ली प्रीव्यू प्रोग्राम: 16,000 से ज़्यादा डेवलपर EPP में शामिल हो चुके हैं. ये डेवलपर, नए एपीआई की टेस्टिंग कर रहे हैं, इस्तेमाल के नए उदाहरणों के बारे में जान रहे हैं, और वेब के लिए बेहतर एआई बनाने के लिए सुझाव/राय दे रहे हैं या शिकायत कर रहे हैं.
- हैकथॉन: हमने दो हैकथॉन होस्ट किए हैं. इनमें आपने कुछ बेहतरीन वेबसाइटें और एक्सटेंशन बनाए हैं.
आपका काम अभी खत्म नहीं हुआ है. अपने सुझाव, राय, और शिकायतें शेयर करते रहें. साथ ही, नए बिल्ट-इन एपीआई की जांच करते रहें. हम इन सुविधाओं को बेहतर बनाने के लिए काम करते रहेंगे. W3C के वेब मशीन लर्निंग कम्यूनिटी ग्रुप में शामिल होकर, इन एपीआई को स्टैंडर्ड बनाने में भी मदद की जा सकती है.
आपके ब्राउज़र में Gemini की मदद से, Chrome एक्सटेंशन का भविष्य
पिछले दो सालों में, एआई की मदद से काम करने वाले एक्सटेंशन की संख्या दोगुनी हो गई है. दरअसल, Chrome Web Store से इंस्टॉल किए गए सभी एक्सटेंशन में से 10% एक्सटेंशन, एआई का इस्तेमाल करते हैं. इस बातचीत में, Sebastian Benz ने कुछ उदाहरण दिए हैं. इनसे पता चलता है कि Chrome एक्सटेंशन और Gemini, दोनों मिलकर कितने असरदार तरीके से काम करते हैं.
उदाहरण के लिए, Chrome के नए प्रॉम्प्ट एपीआई का इस्तेमाल करके, क्लाइंट पर मौजूद वेबसाइटों से डेटा निकालकर और उसे प्रोसेस करके, ब्राउज़र को ज़्यादा मददगार कैसे बनाया जा सकता है.
Chrome एक्सटेंशन में, Chrome के प्रॉम्प्टिंग एपीआई की नई मल्टीमॉडल क्षमताओं को दिखाने के लिए, ताकि उपयोगकर्ताओं के लिए ऑडियो और इमेज को ज़्यादा ऐक्सेस किया जा सके.
इसमें ब्राउज़िंग के भविष्य के बारे में बताया गया है. साथ ही, यह भी बताया गया है कि Google DeepMind का Project Mariner, Chrome एक्सटेंशन और Gemini Cloud API के नए वर्शन का इस्तेमाल करके, ब्राउज़र एजेंट कैसे बनाता है.
ब्राउज़िंग के नए अनुभव बनाने और ब्राउज़र को ज़्यादा मददगार बनाने के लिए, Chrome एक्सटेंशन में Gemini को क्लाउड या ब्राउज़र में इस्तेमाल करने की संभावनाओं के बारे में जानें.
असल दुनिया में वेब एआई को इस्तेमाल करने के उदाहरण और रणनीतियां
यूरिको हिरोता और स्वेथा गोपालकृष्णन ने, वेब पर एआई का इस्तेमाल करने वाली कंपनियों के कुछ उदाहरण दिए. इन कंपनियों ने एआई का इस्तेमाल करके, अपने कारोबार और उपयोगकर्ता अनुभव को बेहतर बनाया है. इससे कोई फ़र्क़ नहीं पड़ता कि उनका समाधान, क्लाइंट-साइड मॉडल, सर्वर-साइड या हाइब्रिड समाधान का इस्तेमाल करता है. अहम बात यह है कि आप अपने उपयोगकर्ताओं के लिए, अभी कौनसी नई सुविधाएं और फ़ंक्शन उपलब्ध कराते हैं.
BILIBILI ने एक नई सुविधा लॉन्च की है. इससे वीडियो स्ट्रीम को ज़्यादा दिलचस्प बनाया जा सकता है. इस सुविधा का नाम है: बुलेट-स्क्रीन टिप्पणियां. ये वीडियो में रीयल-टाइम में उपयोगकर्ता की टिप्पणियां दिखाते हैं. ये टिप्पणियां, स्पीकर के पीछे दिखती हैं. इसके लिए, वे इमेज सेगमेंटेशन का इस्तेमाल करते हैं. यह मशीन लर्निंग का एक जाना-माना कॉन्सेप्ट है. इस वजह से, सेशन की अवधि में 30% की बढ़ोतरी हुई! Tokopedia ने सेलर की पुष्टि करने की प्रोसेस को आसान बनाने के लिए, फ़ेस डिटेक्शन मॉडल का इस्तेमाल किया. इससे अपलोड की गई फ़ोटो की क्वालिटी का आकलन किया जा सका. इस वजह से, मैन्युअल तरीके से मंज़ूरी देने की प्रोसेस में लगभग 70% की कमी आई.
Vision Nanny, सेरेब्रल विज़ुअल इंपेयरमेंट (सीवीआई) से पीड़ित बच्चों के लिए एक वेब प्लैटफ़ॉर्म है. यह एआई की मदद से, विज़न स्टिम्युलेशन से जुड़ी गतिविधियां उपलब्ध कराता है. ये कई MediaPipe लाइब्रेरी का इस्तेमाल करते हैं. इनमें हाथ के लैंडमार्क का पता लगाने वाला मॉडल भी शामिल है. यह मॉडल, किसी इमेज, वीडियो या रीयल-टाइम में हाथों के मुख्य पॉइंट का पता लगाता है. 50 बच्चों के साथ किए गए एक पायलट टेस्ट में यह पता चला कि विज़न नैनी, मैन्युअल तरीके से की जाने वाली विज़ुअल स्टिम्युलेशन गतिविधियों की तुलना में पांच गुना तेज़ी से जवाब देती है. थेरेपिस्ट ने बताया कि मैन्युअल सेटअप की सुविधा हटाने से, उन्हें हर सेशन में औसतन तीन घंटे की बचत हुई.
Google Meet में एआई की मदद से काम करने वाली कई सुविधाएं उपलब्ध हैं. जैसे, वीडियो की रोशनी को बेहतर बनाना, वीडियो को धुंधला होने से बचाना, और वीडियो को साफ़ दिखाना. सबसे बड़ी चुनौती यह है कि इन सुविधाओं को रीयल टाइम में काम करना होता है. ऐसे में, WebAssembly (Wasm) का इस्तेमाल किया जाता है. इससे कंप्यूटर के सीपीयू की पूरी क्षमता का इस्तेमाल किया जा सकता है. साथ ही, रीयल-टाइम में वीडियो प्रोसेस करने की सुविधा चालू की जा सकती है.
ये वेब पर एआई के इस्तेमाल के कुछ उदाहरण हैं. कई अन्य कंपनियों ने, डिवाइस में पहले से मौजूद एआई एपीआई का इस्तेमाल किया. इनमें से कुछ कंपनियों ने, केस स्टडी में अपने काम के बारे में बताया.
उपयोगकर्ताओं को आने वाले समय में बेहतर अनुभव देने के लिए, क्लाइंट-साइड वेब एआई एजेंट
जेसन मेज़ ने इंटरनेट के आने वाले समय के बारे में बताया: वेब एआई एजेंट. वेब का भविष्य एआई पर आधारित है. इसमें एआई की क्षमताओं को सीधे तौर पर ब्राउज़र में शामिल किया जाएगा. इससे एआई, लार्ज लैंग्वेज मॉडल (एलएलएम) की क्षमताओं से आगे बढ़कर, आपके लिए काम के टास्क पूरे कर पाएगा.
क्लाइंट-साइड अप्रोच से, निजता को बेहतर बनाया जा सकता है. साथ ही, पेज लोड होने में लगने वाले समय को कम किया जा सकता है और लागत में काफ़ी बचत की जा सकती है. एजेंट की मदद से, अपनी मौजूदा वेबसाइट को अपग्रेड किया जा सकता है. साथ ही, किसी उपयोगकर्ता के लिए टास्क अपने-आप पूरे किए जा सकते हैं. इसके अलावा, एजेंट, उपलब्ध टूल को डाइनैमिक तरीके से चुनकर उनका इस्तेमाल कर सकता है. ऐसा हो सकता है कि एजेंट, एक ही टूल को बार-बार इस्तेमाल करे. इससे एजेंट को मुश्किल या कई चरणों वाले टास्क पूरे करने में मदद मिलती है.
एजेंट ये काम कर सकते हैं:
- प्लान बनाना और सब-टास्क को बांटना. साथ ही, टास्क को पूरा करने के लिए, कई चरणों वाली प्लानिंग की मदद से ज़्यादा मुश्किल समस्याओं को हल करना, ताकि टास्क को तार्किक चरणों में बांटा जा सके.
- सबसे अच्छे टूल चुनें. ये टूल फ़ंक्शन, एपीआई का इस्तेमाल या ऑगमेंटेड लैंग्वेज मॉडल की बुनियादी जानकारी के लिए डेटास्टोर का ऐक्सेस हो सकते हैं. इसके बाद, बाहरी दुनिया में कार्रवाइयां करें.
- कॉन्टेक्स्ट के हिसाब से मेमोरी को सेव रखना. यह एजेंट या बाहरी टूल से मिले पिछले आउटपुट के आधार पर होता है. कम समय के लिए जानकारी सेव रखने की सुविधा, मॉडल की कॉन्टेक्स्ट विंडो के साइज़ के हिसाब से, कॉन्टेक्स्ट के इतिहास के FIFO बफ़र की तरह काम करती है. वहीं, लंबे समय के लिए जानकारी सेव रखने की सुविधा में, वेक्टर डेटाबेस का इस्तेमाल किया जा सकता है. इससे, पिछली बातचीत के सेशन या अन्य डेटा सोर्स से ज़रूरत के हिसाब से जानकारी को वापस लाया जा सकता है.
वेब एआई एजेंट को JavaScript में, मौजूदा वेब टेक्नोलॉजी के साथ इंटिग्रेट करने के लिए डिज़ाइन किया गया है. आखिर में, यह ज़रूरी है कि हम अपने हार्डवेयर को बेहतर बनाते रहें, ताकि ब्राउज़र में मॉडल को सबसे अच्छी तरह से चलाया जा सके. आने वाले समय में, WebNN जैसी टेक्नोलॉजी, सीपीयू, जीपीयू, और एनपीयू पर मॉडल को ऑप्टिमाइज़ करने में अहम भूमिका निभाएगी. छोटे एलएलएम के बढ़ते चलन और लगातार हो रहे विकास की वजह से, आने वाले समय में यह सुविधा और भी बेहतर हो जाएगी.
हाइब्रिड अप्रोच का इस्तेमाल करें. इसमें डिवाइस पर प्रोसेस करने की सुविधा को क्लाउड कॉल की रणनीतिक सुविधा के साथ जोड़ा जाता है. इससे, ब्राउज़र में अभी ही उपयोगकर्ताओं को बेहतर, रिस्पॉन्सिव, और उनकी पसंद के मुताबिक अनुभव दिया जा सकता है. जल्द ही, वेब एआई के लिए किए गए आपके निवेश का फ़ायदा मिलेगा. ऐसा इसलिए, क्योंकि डिवाइसों में एलएलएम को चलाने की क्षमता बेहतर हो जाएगी.
Google I/O 2025 के बारे में ज़्यादा जानें
हमने Google I/O 2025 की सभी बातचीत रिलीज़ कर दी हैं. साथ ही, हमने वेब डेवलपर के लिए एक खास प्लेलिस्ट बनाई है. ज़्यादा जानकारी के लिए, io.google/2025 पर जाएं.