I/O 2024 वेब एआई रैप अप: आपके अगले वेब ऐप्लिकेशन के लिए नए मॉडल, टूल, और एपीआई

पिछले साल, वेब एआई में काफ़ी बदलाव हुए हैं. अगर आपने I/O 2024 में हुई हमारी बातचीत को नहीं देखा है, तो हम आपको बता दें कि हमने आपके अगले वेब ऐप्लिकेशन के लिए, नए मॉडल, टूल, और एपीआई के बारे में बातचीत की थी.

वेब एआई, मशीन लर्निंग (एमएल) मॉडल का इस्तेमाल करने के लिए, टेक्नोलॉजी और तकनीकों का एक सेट है. यह डिवाइस के सीपीयू या जीपीयू पर चलने वाले वेब ब्राउज़र में, क्लाइंट-साइड पर काम करता है. इसे JavaScript और अन्य वेब टेक्नोलॉजी, जैसे कि WebAssembly और WebGPU की मदद से बनाया जा सकता है. यह सर्वर साइड एआई या "क्लाउड एआई" से अलग है. इनमें मॉडल, सर्वर पर काम करता है और एपीआई की मदद से ऐक्सेस किया जाता है.

इस बातचीत में, हमने ये बातें शेयर की हैं:

  • ब्राउज़र में हमारे नए लार्ज लैंग्वेज मॉडल (एलएलएम) को चलाने का तरीका और क्लाइंट-साइड पर मॉडल चलाने का असर;
  • विज़ुअल ब्लॉक के आने वाले समय के बारे में जानकारी, ताकि प्रोटोटाइप को तेज़ी से बनाया जा सके;
  • साथ ही, वेब डेवलपर बड़े पैमाने पर वेब एआई के साथ काम करने के लिए, Chrome में JavaScript का इस्तेमाल कैसे कर सकते हैं.

ब्राउज़र में एलएलएम

Gemma Web, Google का एक नया ओपन मॉडल है. इसे उपयोगकर्ता के डिवाइस पर ब्राउज़र में चलाया जा सकता है. इसे Gemini बनाने के लिए इस्तेमाल की गई रिसर्च और टेक्नोलॉजी का इस्तेमाल करके बनाया गया है.

एलएलएम को डिवाइस पर उपलब्ध कराने से, अनुमान लगाने के लिए क्लाउड सर्वर पर चलाने की तुलना में लागत में काफ़ी कमी आ सकती है. साथ ही, उपयोगकर्ता की निजता को बेहतर बनाने और इंतज़ार का समय कम करने में भी मदद मिलती है. ब्राउज़र में जनरेटिव एआई की सुविधा अभी शुरुआती दौर में है. हालांकि, ज़्यादा सीपीयू और जीपीयू रैम के साथ हार्डवेयर में लगातार सुधार हो रहा है. इसलिए, हमें उम्मीद है कि ज़्यादा मॉडल उपलब्ध होंगे.

कारोबार, वेब पेज पर क्या-क्या किया जा सकता है, इस बारे में फिर से सोच सकते हैं. खास तौर पर, टास्क के हिसाब से इस्तेमाल के उदाहरणों के लिए, छोटे एलएलएम (2 से 8 अरब पैरामीटर) के वेट को, उपभोक्ता के हार्डवेयर पर चलाने के लिए ट्यून किया जा सकता है.

Gemma 2B को Kaggle Models से डाउनलोड किया जा सकता है. यह ऐसे फ़ॉर्मैट में आता है जो हमारे Web LLM inference API के साथ काम करता है. इस्तेमाल किए जा सकने वाले अन्य आर्किटेक्चर में Microsoft Phi-2, Falcon RW 1B, और Stable LM 3B शामिल हैं. इन्हें कन्वर्टर लाइब्रेरी का इस्तेमाल करके, ऐसे फ़ॉर्मैट में बदला जा सकता है जिसका इस्तेमाल रनटाइम कर सके.

विज़ुअल ब्लॉक की मदद से, प्रोटोटाइप तेज़ी से बनाना

विज़ुअल ब्लॉक की मदद से, क्लाइंट में बिना किसी कोड के, ऑब्जेक्ट की गहराई का अनुमान लगाया जा सकता है.

हम Hugging Face के साथ मिलकर काम कर रहे हैं. उन्होंने विज़ुअल ब्लॉक के लिए, 16 नए कस्टम नोड बनाए हैं. इससे विज़ुअल ब्लॉक में Transformers.js और Hugging Face का पूरा इकोसिस्टम उपलब्ध हो जाता है.

इनमें से आठ नए नोड, वेब एआई के साथ क्लाइंट साइड पर पूरी तरह से काम करते हैं. इनमें ये शामिल हैं:

इसके अलावा, Hugging Face के सात सर्वर-साइड एमएल टास्क हैं. इनकी मदद से, विज़ुअल ब्लॉक में एपीआई की मदद से हज़ारों मॉडल चलाए जा सकते हैं. Hugging Face के विज़ुअल ब्लॉक का कलेक्शन देखें.

Chrome की मदद से, वेब एआई के लिए JavaScript का बड़े पैमाने पर इस्तेमाल करना

पिछले उदाहरणों में, जैसे कि Gemma के साथ, मॉडल को वेब पेज में ही लोड और चलाया जाता है. Chrome, डिवाइस में पहले से मौजूद एआई पर काम कर रहा है. इसमें, स्टैंडर्ड और टास्क के हिसाब से बनाए गए JavaScript API की मदद से मॉडल ऐक्सेस किए जा सकते हैं.

बस यही नहीं. Chrome ने WebGPU को भी अपडेट किया है, ताकि यह 16-बिट फ़्लोटिंग पॉइंट वैल्यू के साथ काम कर सके.

WebAssembly में Memory64 नाम का एक नया प्रस्ताव है. इससे 64-बिट मेमोरी इंडेक्स का इस्तेमाल किया जा सकेगा. इससे, पहले के मुकाबले ज़्यादा बड़े एआई मॉडल लोड किए जा सकेंगे.

हेडलेस Chrome की मदद से, वेब एआई मॉडल की जांच करना शुरू करना

अब क्लाइंट-साइड एआई (या ऐसे किसी भी ऐप्लिकेशन की जांच की जा सकती है जिसे WebGL या WebGPU की मदद चाहिए) के लिए, Headless Chrome का इस्तेमाल किया जा सकता है. साथ ही, तेज़ी के लिए, NVIDIA T4 या P100 जैसे सर्वर-साइड जीपीयू का इस्तेमाल किया जा सकता है. ज़्यादा जानें:

याद रखें, अपनी बनाई गई चीज़ें शेयर करते समय #WebAI जोड़ें, ताकि बड़ी कम्यूनिटी आपका काम देख सके. अपनी खोज के नतीजे और सुझाव, X, LinkedIn या अपने पसंदीदा सोशल प्लैटफ़ॉर्म पर शेयर करें.