منتشر شده: ۲۲ مه ۲۰۲۵
هوش مصنوعی در حال تغییر نحوهی ساخت وبسایتها و برنامههای وب توسط توسعهدهندگان وب است. در کنفرانس Google I/O 2025، ما آنچه را که در طول سال گذشته روی آن کار میکردیم به اشتراک گذاشتیم، نحوهی استفادهی شرکایمان از هوش مصنوعی در وب را نشان دادیم و از APIهای جدید هوش مصنوعی داخلی رونمایی کردیم .
آیا این رویداد را از دست دادید؟ خبر خوب، اکنون میتوانید سخنرانیها را به صورت آنلاین تماشا کنید!
هوش مصنوعی داخلی کاربردی با Gemini Nano در کروم
ماموریت اصلی ما هوشمندتر کردن کروم و وب برای همه توسعهدهندگان و همه کاربران است. در این گفتگو، توماس اشتاینر بهروزرسانیهایی در مورد هوش مصنوعی داخلی ، موارد استفاده عملی و نگاهی به آینده ما به اشتراک میگذارد.
هوش مصنوعی داخلی، مدلهای سمت کلاینت را در مرورگر اجرا میکند که مزایای متعددی دارد:
- خصوصی : دادههای حساس کاربر روی دستگاه باقی میمانند و هرگز نیازی به ترک مرورگر ندارند.
- آفلاین : برنامهها میتوانند حتی بدون اتصال به اینترنت به قابلیتهای هوش مصنوعی دسترسی داشته باشند.
- عملکرد : به لطف شتاب سختافزاری، این APIها عملکرد بسیار خوبی ارائه میدهند.
نگاهی به نمونههای کد برای هر یک از APIهای هوش مصنوعی داخلی بیندازید، از وضعیت آنها مطلع شوید و ببینید چه شرکتهایی در حال پیادهسازی این فناوری هستند.
API های چندوجهی
ما در حال کار بر روی APIهای چندوجهی کاملاً جدید هستیم. این بدان معناست که میتوانید از Gemini Nano در مورد آنچه در محتوای بصری "میبیند" یا در محتوای صوتی "میشنود" بپرسید. به عنوان مثال، پیشنهادهایی برای متن جایگزین روی تصاویر آپلود شده در یک پلتفرم وبلاگ دریافت کنید که کاربران میتوانند آنها را اصلاح و تنظیم کنند. یا میتوانید از Gemini Nano بخواهید توضیحات یا رونوشتهایی برای پادکستها بنویسد.
هوش مصنوعی هیبریدی
یکی از چالشهایی که توسعهدهندگان با هوش مصنوعی سمت کلاینت مواجه هستند این است که همه پلتفرمها و مرورگرها الزامات سختافزاری لازم برای اجرای یک مدل روی دستگاه را ندارند. Gemini و Firebase برای ساخت Firebase Web SDK با هم همکاری کردند تا وقتی پیادهسازیهای سمت کلاینت در دسترس نیستند، بتوانید به Gemini Nano روی یک سرور مراجعه کنید.
همکاری با شما
ما بسیار خوشحالیم که با این همه توسعهدهنده روی APIهای هوش مصنوعی داخلی همکاری کردهایم. تلاشهای ما بدون شما امکانپذیر نیست.
- برنامه پیشنمایش اولیه : بیش از ۱۶۰۰۰ توسعهدهنده به EPP پیوستهاند، APIهای جدید را آزمایش میکنند، موارد استفاده جدید را کشف میکنند و برای ساخت هوش مصنوعی بهتر برای وب، بازخورد ارائه میدهند.
- هکاتونها : ما دو هکاتون برگزار کردیم و شما وبسایتها و افزونههای فوقالعادهای ساختید .
کار شما تمام نشده است. به اشتراک گذاشتن بازخورد خود، آزمایش APIهای داخلی جدید ادامه دهید و ما به تکرار این روند ادامه خواهیم داد. شما حتی میتوانید با پیوستن به گروه انجمن یادگیری ماشین وب W3C به استانداردسازی این APIها کمک کنید.
آینده افزونههای کروم با Gemini در مرورگر شما
تعداد افزونههای مبتنی بر هوش مصنوعی در دو سال گذشته دو برابر شده است. در واقع، ۱۰٪ از کل افزونههای نصب شده از فروشگاه وب کروم از هوش مصنوعی استفاده میکنند. در این سخنرانی، سباستین بنز با ارائه مثالهای عملی توضیح میدهد که چرا افزونههای کروم و Gemini چنین ترکیب قدرتمندی هستند.
مثالها شامل این میشود که چگونه میتوانید با استخراج و پردازش دادهها از وبسایتها در کلاینت با استفاده از رابط برنامهنویسی کاربردی (API) جدید کروم، مرورگر را مفیدتر کنید.
بیش از پیش پتانسیل قابلیتهای چندوجهی جدید API اعلان کروم در افزونههای کروم را برای دسترسی بیشتر کاربران به صدا و تصاویر نشان داد.
با توضیح اینکه چگونه پروژه Mariner گوگل دیپمایند از افزونههای کروم و جدیدترین APIهای Gemini Cloud برای ساخت یک عامل مرورگر تمامعیار استفاده میکند، نگاهی به آینده مرورگرها خواهیم داشت.
پتانسیل استفاده از Gemini در فضای ابری یا در مرورگر در افزونههای کروم را برای ایجاد تجربیات جدید مرور و مفیدتر کردن مرورگر بررسی کنید.
موارد استفاده و استراتژیهای هوش مصنوعی وب در دنیای واقعی
یوریکو هیروتا و سوئتا گوپالاکریشنان نمونههایی از شرکتهای واقعی را که از هوش مصنوعی در وب برای بهبود کسبوکار و تجربه کاربری خود استفاده میکنند، برجسته کردند. چه راهحل آنها از مدلهای سمت کلاینت، سمت سرور یا یک راهحل ترکیبی استفاده کند، آنچه مهم است، عملکردها و ویژگیهای جدید و هیجانانگیزی است که همین حالا در اختیار کاربران خود قرار میدهید.
BILIBILI با یک ویژگی جدید، پخش ویدیوهای خود را جذابتر کرد: نظرات صفحه گلولهای . آنها نظرات کاربران را به صورت بلادرنگ در ویدیو ارائه میدهند که پشت سر گوینده رندر میشود. برای انجام این کار، آنها از تقسیمبندی تصویر، یک مفهوم یادگیری ماشینی شناخته شده، استفاده میکنند. در نتیجه، مدت زمان جلسه 30٪ افزایش یافت! Tokopedia با استفاده از یک مدل تشخیص چهره، برای ارزیابی کیفیت عکسهای آپلود شده، اصطکاک را در فرآیند تأیید فروشنده خود کاهش داد. در نتیجه، آنها تأییدهای دستی را تقریباً 70٪ کاهش دادند.
Vision Nanny، یک پلتفرم وب برای کودکان مبتلا به اختلال بینایی مغزی (CVI)، فعالیتهای تحریک بینایی مبتنی بر هوش مصنوعی را ارائه میدهد. آنها از چندین کتابخانه MediaPipe، از جمله مدل تشخیص نقاط کلیدی دست، استفاده میکنند که نقاط کلیدی دستها را در یک تصویر، ویدیو یا در زمان واقعی پیدا میکند. یک آزمایش با ۵۰ کودک نشان داد که Vision Nanny پاسخها را ۵ برابر سریعتر از فعالیتهای تحریک بصری دستی ارائه میدهد. درمانگران گزارش دادند که با حذف تنظیمات دستی، به طور متوسط سه ساعت در هر جلسه صرفهجویی کردهاند.
گوگل میت چندین ویژگی دارد که توسط هوش مصنوعی فعال شدهاند، از بهبود نورپردازی گرفته تا کاهش تاری و تار شدن ویدیوها. بزرگترین چالش این است که این ویژگیها باید به صورت بلادرنگ کار کنند. اینجاست که WebAssembly (Wasm) وارد عمل میشود تا از تمام قدرت CPU کامپیوتر استفاده کند و پردازش ویدیو را به صورت بلادرنگ امکانپذیر سازد.
اینها تنها چند نمونه واقعی از هوش مصنوعی در وب هستند. چندین شرکت دیگر نیز با API های داخلی هوش مصنوعی آزمایشهایی انجام دادند که برخی از آنها کار خود را در مطالعات موردی به اشتراک گذاشتند.
عاملهای هوش مصنوعی وب سمت کلاینت برای ساخت تجربیات کاربری هوشمندتر در آینده
جیسون مایز در مورد آینده اینترنت صحبت کرد: عاملهای هوش مصنوعی وب. وب آیندهای عاملمحور دارد و قابلیتهای هوش مصنوعی را مستقیماً به مرورگر میآورد تا کارهای مفیدی را از طرف شما انجام دهد، فراتر از قابلیتهای مدلهای زبانی بزرگ (LLM).
با رویکرد سمت کلاینت، حریم خصوصی افزایش یافته، تأخیر کاهش یافته و صرفهجویی قابل توجه در هزینهها به طور بالقوه حاصل میشود. نمایندگان به شما این امکان را میدهند که وبسایت موجود خود را ارتقا دهید، وظایف را به صورت خودکار برای یک کاربر انجام دهید، به صورت پویا ابزارهای در معرض دید را انتخاب و استفاده کنید - احتمالاً در یک حلقه - و به نماینده اجازه دهید وظایف بالقوه پیچیده یا چند مرحلهای را انجام دهد.
نمایندگان میتوانند:
- وظایف فرعی را برنامهریزی و تقسیم کنید ، و مشکلات پیچیدهتر را از طریق برنامهریزی چند مرحلهای برای تجزیه وظیفه به مراحل منطقی برای تکمیل، مدیریت کنید.
- بهترین ابزارها، چه توابع، چه استفاده از API، یا دسترسی به پایگاه داده برای دانش پایه مدل زبان افزوده را انتخاب کنید ، سپس اقدامات را در دنیای خارج انجام دهید.
- حافظه مبتنی بر زمینه را بر اساس خروجیهای قبلی از عامل یا ابزارهای خارجی حفظ کنید . حافظه کوتاهمدت مانند یک بافر FIFO از تاریخچه زمینه تا اندازه پنجره زمینه مدل عمل میکند، در مقابل حافظه بلندمدت که در آن میتوان از یک پایگاه داده برداری برای ذخیره اطلاعات برای فراخوانی در صورت نیاز از جلسات مکالمه قبلی یا سایر منابع داده به طور کامل استفاده کرد.
عاملهای هوش مصنوعی وب برای ادغام با فناوریهای وب موجود در جاوا اسکریپت طراحی شدهاند. در نهایت، مهم است که ما به شتابدهی سختافزار خود برای اجرای بهتر مدلها در مرورگر ادامه دهیم. با نگاهی به آینده، فناوریهایی مانند WebNN نقش کلیدی در بهینهسازی اجرای مدل در CPUها، GPUها و NPUها ایفا خواهند کرد. با روند رو به رشد LLMهای کوچکتر و پیشرفت مداوم، این فناوری در آینده قدرتمندتر خواهد شد.
استفاده از یک رویکرد ترکیبی را در نظر بگیرید، که در آن پردازش روی دستگاه با فراخوانیهای ابری استراتژیک ترکیب میشود، تا بتوانید همین الان تجربیات کاربری هوشمند، واکنشگرا و شخصیسازیشدهای را در مرورگر ایجاد کنید. به زودی، با افزایش توانایی دستگاهها در اجرای LLMها، بازده سرمایهگذاری شما در رویکرد هوش مصنوعی وب به ثمر خواهد نشست.
با کنفرانس گوگل آی/او ۲۰۲۵ همراه باشید
ما تمام سخنرانیهای کنفرانس گوگل آی/او ۲۰۲۵ را به همراه یک لیست پخش مختص توسعهدهندگان وب منتشر کردهایم. برای اطلاعات بیشتر به io.google/2025 مراجعه کنید.