पिछले साल, वेब एआई में काफ़ी बदलाव हुए हैं. अगर आपने I/O 2024 में हुई हमारी बातचीत को नहीं देखा है, तो हम आपको बता दें कि हमने आपके अगले वेब ऐप्लिकेशन के लिए, नए मॉडल, टूल, और एपीआई के बारे में बातचीत की थी.
वेब एआई, मशीन लर्निंग (एमएल) मॉडल का इस्तेमाल करने के लिए, टेक्नोलॉजी और तकनीकों का एक सेट है. यह डिवाइस के सीपीयू या जीपीयू पर चलने वाले वेब ब्राउज़र में, क्लाइंट-साइड पर काम करता है. इसे JavaScript और अन्य वेब टेक्नोलॉजी, जैसे कि WebAssembly और WebGPU की मदद से बनाया जा सकता है. यह सर्वर साइड एआई या "क्लाउड एआई" से अलग है. इनमें मॉडल, सर्वर पर चलता है और एपीआई की मदद से ऐक्सेस किया जाता है.
इस बातचीत में, हमने ये बातें शेयर की हैं:
- ब्राउज़र में हमारे नए लार्ज लैंग्वेज मॉडल (एलएलएम) को चलाने का तरीका और क्लाइंट-साइड पर मॉडल चलाने का असर;
- विज़ुअल ब्लॉक के आने वाले समय के बारे में जानकारी, ताकि प्रोटोटाइप तेज़ी से बनाया जा सके;
- साथ ही, वेब डेवलपर बड़े पैमाने पर वेब एआई के साथ काम करने के लिए, Chrome में JavaScript का इस्तेमाल कैसे कर सकते हैं.
ब्राउज़र में एलएलएम
Gemma Web, Google का एक नया ओपन मॉडल है. इसे उपयोगकर्ता के डिवाइस पर ब्राउज़र में चलाया जा सकता है. इसे Gemini बनाने के लिए इस्तेमाल की गई रिसर्च और तकनीक का इस्तेमाल करके बनाया गया है.
एलएलएम को डिवाइस पर उपलब्ध कराने से, अनुमान लगाने के लिए क्लाउड सर्वर पर चलाने की तुलना में लागत में काफ़ी बचत हो सकती है. साथ ही, उपयोगकर्ता की निजता को बेहतर बनाने और इंतज़ार का समय कम करने में भी मदद मिलती है. ब्राउज़र में जनरेटिव एआई की सुविधा अभी शुरुआती दौर में है. हालांकि, ज़्यादा सीपीयू और जीपीयू रैम के साथ हार्डवेयर में लगातार सुधार हो रहा है. इसलिए, हमें उम्मीद है कि ज़्यादा मॉडल उपलब्ध होंगे.
कारोबार, वेब पेज पर क्या-क्या किया जा सकता है, इस बारे में फिर से सोच सकते हैं. खास तौर पर, टास्क के हिसाब से इस्तेमाल के उदाहरणों के लिए, छोटे एलएलएम (2 से 8 अरब पैरामीटर) के वेट को, उपभोक्ता के हार्डवेयर पर चलाने के लिए ट्यून किया जा सकता है.
Gemma 2B को Kaggle Models से डाउनलोड किया जा सकता है. यह ऐसे फ़ॉर्मैट में आता है जो हमारे Web LLM inference API के साथ काम करता है. इस्तेमाल किए जा सकने वाले अन्य आर्किटेक्चर में Microsoft Phi-2, Falcon RW 1B, और Stable LM 3B शामिल हैं. इन्हें कन्वर्टर लाइब्रेरी का इस्तेमाल करके, ऐसे फ़ॉर्मैट में बदला जा सकता है जिसका इस्तेमाल रनटाइम कर सकता है.
विज़ुअल ब्लॉक की मदद से, तेज़ी से प्रोटोटाइप बनाएं
हम Hugging Face के साथ मिलकर काम कर रहे हैं. उन्होंने विज़ुअल ब्लॉक के लिए, 16 नए कस्टम नोड बनाए हैं. इससे विज़ुअल ब्लॉक में Transformers.js और Hugging Face का पूरा इकोसिस्टम उपलब्ध हो जाता है.
इनमें से आठ नए नोड, वेब एआई के साथ पूरी तरह से क्लाइंट साइड पर चलते हैं. इनमें ये शामिल हैं:
- इमेज सेगमेंटेशन
- Translation
- टोकन की कैटगरी
- ऑब्जेक्ट का पता लगाने की सुविधा
- टेक्स्ट का क्लासिफ़िकेशन
- बैकग्राउंड हटाना
- गहराई का अनुमान
इसके अलावा, Hugging Face के सात सर्वर-साइड एमएल टास्क हैं. इनकी मदद से, विज़ुअल ब्लॉक में एपीआई की मदद से हज़ारों मॉडल चलाए जा सकते हैं. Hugging Face के विज़ुअल ब्लॉक का कलेक्शन देखें.
Chrome की मदद से, वेब एआई के लिए JavaScript का बड़े पैमाने पर इस्तेमाल करना
पिछले उदाहरणों में, जैसे कि Gemma के साथ, मॉडल को वेब पेज में ही लोड और चलाया जाता है. Chrome, डिवाइस में पहले से मौजूद एआई पर काम कर रहा है. इसमें, स्टैंडर्ड और टास्क के हिसाब से बनाए गए JavaScript API की मदद से मॉडल ऐक्सेस किए जा सकते हैं.
बस यही नहीं. Chrome ने WebGPU को भी अपडेट किया है, ताकि यह 16-बिट फ़्लोटिंग पॉइंट वैल्यू के साथ काम कर सके.
WebAssembly में Memory64 नाम का एक नया प्रस्ताव है. इससे 64-बिट मेमोरी इंडेक्स का इस्तेमाल किया जा सकेगा. इससे, पहले के मुकाबले ज़्यादा बड़े एआई मॉडल लोड किए जा सकेंगे.
हेडलेस Chrome की मदद से, वेब एआई मॉडल की जांच करना शुरू करना
अब क्लाइंट-साइड एआई (या ऐसे किसी भी ऐप्लिकेशन की जांच की जा सकती है जिसे WebGL या WebGPU की मदद चाहिए) के लिए, Headless Chrome का इस्तेमाल किया जा सकता है. साथ ही, तेज़ी के लिए, NVIDIA T4 या P100 जैसे सर्वर-साइड जीपीयू का इस्तेमाल किया जा सकता है. ज़्यादा जानें:
- इसे Google Colab में चलाना
- टेस्टिंग के बारे में ज़्यादा जानें
- साथ ही, GitHub पर उदाहरण के तौर पर दिया गया कोड देखें
याद रखें, अपनी बनाई गई चीज़ें शेयर करते समय #WebAI जोड़ें, ताकि बड़ी कम्यूनिटी आपका काम देख सके. अपनी खोज के नतीजे और सुझाव, X, LinkedIn या अपने पसंदीदा सोशल प्लैटफ़ॉर्म पर शेयर करें.