গত এক বছরে ওয়েব এআই-তে অনেক পরিবর্তন হয়েছে। যদি আপনি এটি মিস করেন, আমরা আপনার পরবর্তী ওয়েব অ্যাপের জন্য নতুন মডেল, টুল এবং API সম্পর্কে I/O 2024-এ একটি বক্তৃতা দিয়েছি।
ওয়েব AI হল একটি ডিভাইসের CPU বা GPU-তে চলমান ওয়েব ব্রাউজারে মেশিন লার্নিং (ML) মডেল, ক্লায়েন্ট-সাইড ব্যবহার করার জন্য প্রযুক্তি এবং কৌশলগুলির একটি সেট। এটি জাভাস্ক্রিপ্ট এবং অন্যান্য ওয়েব প্রযুক্তির সাথে তৈরি করা যেতে পারে, যেমন WebAssembly এবং WebGPU । এটি সার্ভার-সাইড এআই বা "ক্লাউড এআই" এর বিপরীতে, যেখানে মডেলটি একটি সার্ভারে কার্যকর হয় এবং একটি API দিয়ে অ্যাক্সেস করা হয়।
এই আলোচনায়, আমরা ভাগ করেছি:
- ব্রাউজারে আমাদের নতুন বড় ভাষার মডেলগুলি (LLMs) কীভাবে চালাবেন এবং ক্লায়েন্ট-সাইডে চলমান মডেলগুলির প্রভাব;
- দ্রুত প্রোটোটাইপ করার জন্য ভিজ্যুয়াল ব্লকের ভবিষ্যতের দিকে নজর দিন;
- এবং কিভাবে ওয়েব ডেভেলপাররা ক্রোমে জাভাস্ক্রিপ্ট ব্যবহার করতে পারে ওয়েব AI এর সাথে কাজ করতে, স্কেলে।
ব্রাউজারে এলএলএম
Gemma Web হল Google-এর একটি নতুন উন্মুক্ত মডেল যা ব্যবহারকারীর ডিভাইসে ব্রাউজারে চলতে পারে, একই গবেষণা এবং প্রযুক্তি থেকে তৈরি করা হয়েছে যা আমরা Gemini তৈরি করতে ব্যবহার করেছি।
একটি LLM অন-ডিভাইস আনার মাধ্যমে, বর্ধিত ব্যবহারকারীর গোপনীয়তা এবং কম লেটেন্সি সহ অনুমানের জন্য ক্লাউড সার্ভারে চালানোর তুলনায় খরচ সাশ্রয়ের উল্লেখযোগ্য সম্ভাবনা রয়েছে। ব্রাউজারে জেনারেটিভ এআই এখনও প্রাথমিক পর্যায়ে রয়েছে, কিন্তু হার্ডওয়্যার উন্নত হতে থাকে (উচ্চতর সিপিইউ এবং জিপিইউ র্যাম সহ), আমরা আশা করি আরও মডেল উপলব্ধ হবে।
ব্যবসাগুলি একটি ওয়েব পৃষ্ঠায় আপনি কী করতে পারেন তা পুনর্বিবেচনা করতে পারে, বিশেষ করে টাস্ক-নির্দিষ্ট ব্যবহারের ক্ষেত্রে, যেখানে ভোক্তা হার্ডওয়্যারে চালানোর জন্য ছোট LLMs (2 থেকে 8 বিলিয়ন প্যারামিটার) এর ওজনগুলি টিউন করা যেতে পারে।
Gemma 2B Kaggle মডেলগুলিতে ডাউনলোড করার জন্য উপলব্ধ, এবং একটি ফর্ম্যাটে আসে যা আমাদের ওয়েব LLM অনুমান API- এর সাথে সামঞ্জস্যপূর্ণ। অন্যান্য সমর্থিত আর্কিটেকচারের মধ্যে রয়েছে Microsoft Phi-2 , Falcon RW 1B , এবং Stable LM 3B , যা আপনি আমাদের কনভার্টার লাইব্রেরি ব্যবহার করে রানটাইম ব্যবহার করতে পারে এমন একটি বিন্যাসে রূপান্তর করতে পারেন৷
ভিজ্যুয়াল ব্লক দিয়ে দ্রুত প্রোটোটাইপ তৈরি করুন
আমরা Hugging Face-এর সাথে সহযোগিতা করছি, যারা ভিজ্যুয়াল ব্লকের জন্য 16টি নতুন কাস্টম নোড তৈরি করেছে৷ এটি Transformers.js এবং বৃহত্তর Hugging Face বাস্তুতন্ত্রকে ভিজ্যুয়াল ব্লকে নিয়ে আসে।
এই নতুন নোডগুলির মধ্যে আটটি সম্পূর্ণভাবে ক্লায়েন্ট সাইডে চলে, ওয়েব এআই সহ, যার মধ্যে রয়েছে:
- চিত্র বিভাজন
- অনুবাদ
- টোকেন শ্রেণীবিভাগ
- বস্তু সনাক্তকরণ
- পাঠ্য শ্রেণিবিন্যাস
- পটভূমি অপসারণ
- গভীরতা অনুমান
অতিরিক্তভাবে, হ্যাগিং ফেস থেকে সাতটি সার্ভার-সাইড এমএল টাস্ক রয়েছে যা আপনাকে ভিজ্যুয়াল ব্লকগুলিতে API সহ হাজার হাজার মডেল চালানোর অনুমতি দেয়। আলিঙ্গন মুখ ভিজ্যুয়াল ব্লক সংগ্রহ দেখুন.
ক্রোমের সাথে স্কেলে ওয়েব এআই-এর জন্য জাভাস্ক্রিপ্ট ব্যবহার করুন
পূর্ববর্তী উদাহরণে, যেমন জেমার সাথে, মডেলটি লোড হয় এবং ওয়েব পৃষ্ঠার মধ্যেই চালানো হয়। Chrome বিল্ট-ইন, অন-ডিভাইস AI- তে কাজ করছে, যেখানে আপনি প্রমিত, টাস্ক-নির্দিষ্ট জাভাস্ক্রিপ্ট API সহ মডেলগুলি অ্যাক্সেস করতে পারেন।
এবং যে সব না. Chrome 16 বিট ফ্লোটিং পয়েন্ট মানগুলির জন্য সমর্থন সহ WebGPU আপডেট করেছে।
WebAssembly 64 বিট মেমরি ইনডেক্স সমর্থন করার জন্য একটি নতুন প্রস্তাব, Memory64 , যা আপনাকে আগের থেকে বড় AI মডেল লোড করতে দেয়।
হেডলেস ক্রোমের সাথে ওয়েব এআই মডেল পরীক্ষা করা শুরু করুন
NVIDIA T4 বা P100-এর মতো ত্বরণের জন্য সার্ভার-সাইড জিপিইউ ব্যবহার করার সময় আপনি এখন হেডলেস ক্রোম ব্যবহার করে ক্লায়েন্ট-সাইড এআই (অথবা ওয়েবজিএল বা ওয়েবজিপিইউ সমর্থন প্রয়োজন এমন যেকোনো অ্যাপ্লিকেশন) পরীক্ষা করতে পারেন আরও জানুন:
মনে রাখবেন, আপনি যা তৈরি করেন তা শেয়ার করার সময়, #WebAI যোগ করুন যাতে বৃহত্তর সম্প্রদায় আপনার কাজ দেখতে পারে। X, LinkedIn, বা আপনার পছন্দের সামাজিক প্ল্যাটফর্মে আপনার অনুসন্ধান এবং পরামর্শগুলি ভাগ করুন।