पिछले साल में, वेब एआई में काफ़ी बदलाव हुए हैं. अगर आपको इस बारे में जानकारी नहीं है, तो हमने I/O 2024 में आपके अगले वेब ऐप्लिकेशन के नए मॉडल, टूल, और एपीआई के बारे में जानकारी दी है.
वेब एआई, मशीन लर्निंग (एमएल) मॉडल का इस्तेमाल करने के लिए तकनीकों और तकनीकों का एक सेट है. ये मॉडल, डिवाइस के सीपीयू या जीपीयू पर चल रहे वेब ब्राउज़र में क्लाइंट-साइड के तौर पर काम करते हैं. इसे JavaScript और अन्य वेब टेक्नोलॉजी की मदद से बनाया जा सकता है, जैसे कि WebAssembly और WebGPU. यह सर्वर-साइड एआई या "क्लाउड एआई" से अलग है, जहां मॉडल सर्वर पर काम करता है और एपीआई से ऐक्सेस किया जाता है.
इस बातचीत में हमने यह जानकारी दी है:
- ब्राउज़र में, हमारे नए लार्ज लैंग्वेज मॉडल (एलएलएम) चलाने का तरीका और क्लाइंट-साइड चलाने के असर के बारे में जानकारी;
- तेज़ी से प्रोटोटाइप बनाने के लिए, विज़ुअल ब्लॉक के आने वाले समय पर एक नज़र;
- साथ ही, यह भी जानें कि वेब डेवलपर बड़े पैमाने पर वेब एआई के साथ काम करने के लिए, Chrome में JavaScript का इस्तेमाल किस तरह कर सकते हैं.
ब्राउज़र में एलएलएम
जेम्मा वेब, Google का एक नया ओपन मॉडल है, जिसे उपयोगकर्ता के डिवाइस के ब्राउज़र में चलाया जा सकता है. इसे उसी रिसर्च और टेक्नोलॉजी से बनाया गया है जिसका इस्तेमाल हमने Gemini बनाने के लिए किया था.
किसी क्लाउड सर्वर पर अनुमान लगाने के लिए, एलएलएम का इस्तेमाल करने से काफ़ी बचत हो सकती है. साथ ही, उपयोगकर्ता की निजता का बेहतर तरीके से ध्यान रखा जाता है और इंतज़ार के समय को कम किया जा सकता है. ब्राउज़र में जनरेटिव एआई अब भी शुरुआती दौर में है. हालांकि, सिस्टम के हार्डवेयर में लगातार सुधार हो रहा है (ज़्यादा सीपीयू और जीपीयू रैम के साथ), इसलिए हमें उम्मीद है कि और मॉडल उपलब्ध होंगे.
कारोबार नए तरीके से तय कर सकते हैं कि वेब पेज पर क्या-क्या किया जा सकता है. खास तौर पर, टास्क के हिसाब से इसका इस्तेमाल करने के लिए, जहां कंज़्यूमर हार्डवेयर पर छोटे एलएलएम (2 से 8 अरब पैरामीटर) को ट्यून किया जा सकता है.
Gemma 2B को Kaggle मॉडल पर डाउनलोड किया जा सकता है. यह ऐसे फ़ॉर्मैट में आता है जो हमारे वेब एलएलएम अनुमान एपीआई के साथ काम करता हो. इन अन्य आर्किटेक्चर में Microsoft Phi-2, Falcon RW 1B, और Stable LM 3B शामिल हैं. इन्हें हमारी कन्वर्ज़न लाइब्रेरी का इस्तेमाल करके, रनटाइम के लिए इस्तेमाल किए जा सकने वाले फ़ॉर्मैट में बदला जा सकता है.
विज़ुअल ब्लॉक की मदद से, जल्दी से प्रोटोटाइप बनाएं
हम हगिंग फ़ेस के साथ मिलकर काम कर रहे हैं. इन्होंने विज़ुअल ब्लॉक के लिए 16 बिलकुल नए कस्टम नोड बनाए हैं. इससे विज़ुअल ब्लॉक पर Transformers.js और हगिंग फ़ेस का नेटवर्क उपलब्ध हो गया.
इनमें से आठ नए नोड, वेब एआई की मदद से पूरी तरह से क्लाइंट-साइड पर चलते हैं. इनमें ये शामिल हैं:
- इमेज को अलग-अलग सेगमेंट में बांटना
- Translation
- टोकन की कैटगरी तय करना
- ऑब्जेक्ट की पहचान करना
- टेक्स्ट की कैटगरी तय करना
- बैकग्राउंड हटाना
- गहराई का अनुमान
इसके अलावा, Hugging Face में सात सर्वर साइड एमएल टास्क होते हैं. इनकी मदद से Visual Blocks में एपीआई की मदद से, हज़ारों मॉडल चलाए जा सकते हैं. हगिंग फ़ेस विज़ुअल ब्लॉक्स कलेक्शन देखें.
Chrome की मदद से, बड़े पैमाने पर वेब एआई के लिए JavaScript का इस्तेमाल करना
पिछले इंस्टेंस, जैसे कि Gemma में, मॉडल अपने-आप वेब पेज में लोड होता है और चलता है. Chrome, डिवाइस में पहले से मौजूद एआई पर काम कर रहा है. इससे स्टैंडर्ड और टास्क के हिसाब से बने JavaScript एपीआई वाले मॉडल ऐक्सेस किए जा सकेंगे.
बस इतना ही नहीं. Chrome ने 16 बिट फ़्लोटिंग पॉइंट वैल्यू के साथ काम करने के साथ-साथ, WebGPU को भी अपडेट किया है.
WebAssembly में Memory64 नाम का एक नया प्रस्ताव है, जो 64 बिट मेमोरी इंडेक्स के साथ काम करता है. इससे आपको पहले से ज़्यादा बड़े एआई मॉडल लोड करने की अनुमति मिलेगी.
बिना ग्राफ़िक यूज़र इंटरफ़ेस वाले Chrome ब्राउज़र का इस्तेमाल करके, वेब एआई (AI) मॉडल की जांच शुरू करें
अब बिना ग्राफ़िक यूज़र इंटरफ़ेस वाले Chrome का इस्तेमाल करके, क्लाइंट-साइड एआई (या ऐसे किसी भी ऐप्लिकेशन जिसे WebGL या WebGPU की सुविधा की ज़रूरत है) की जांच की जा सकती है. इसके लिए, आपको NVIDIA T4 या P100 जैसी प्रोसेस को बढ़ाने के लिए, सर्वर-साइड जीपीयू का इस्तेमाल करना होगा ज़्यादा जानें:
याद रखें, अपना बनाया कॉन्टेंट शेयर करते समय #WebAI जोड़ें, ताकि ज़्यादा से ज़्यादा लोग आपका काम देख सकें. अपने नतीजों और सुझावों को X, LinkedIn या अपनी पसंद के सोशल मीडिया प्लैटफ़ॉर्म पर शेयर करें.