گفتگوهای هوش مصنوعی ما را در I/O 2025 تماشا کنید

الکساندرا کلپر
Alexandra Klepper

منتشر شده: ۲۲ مه ۲۰۲۵

هوش مصنوعی در حال تغییر نحوه‌ی ساخت وب‌سایت‌ها و برنامه‌های وب توسط توسعه‌دهندگان وب است. در کنفرانس Google I/O 2025، ما آنچه را که در طول سال گذشته روی آن کار می‌کردیم به اشتراک گذاشتیم، نحوه‌ی استفاده‌ی شرکایمان از هوش مصنوعی در وب را نشان دادیم و از APIهای جدید هوش مصنوعی داخلی رونمایی کردیم .

آیا این رویداد را از دست دادید؟ خبر خوب، اکنون می‌توانید سخنرانی‌ها را به صورت آنلاین تماشا کنید!

هوش مصنوعی داخلی کاربردی با Gemini Nano در کروم

ماموریت اصلی ما هوشمندتر کردن کروم و وب برای همه توسعه‌دهندگان و همه کاربران است. در این گفتگو، توماس اشتاینر به‌روزرسانی‌هایی در مورد هوش مصنوعی داخلی ، موارد استفاده عملی و نگاهی به آینده ما به اشتراک می‌گذارد.

هوش مصنوعی داخلی، مدل‌های سمت کلاینت را در مرورگر اجرا می‌کند که مزایای متعددی دارد:

  • خصوصی : داده‌های حساس کاربر روی دستگاه باقی می‌مانند و هرگز نیازی به ترک مرورگر ندارند.
  • آفلاین : برنامه‌ها می‌توانند حتی بدون اتصال به اینترنت به قابلیت‌های هوش مصنوعی دسترسی داشته باشند.
  • عملکرد : به لطف شتاب سخت‌افزاری، این APIها عملکرد بسیار خوبی ارائه می‌دهند.

نگاهی به نمونه‌های کد برای هر یک از APIهای هوش مصنوعی داخلی بیندازید، از وضعیت آنها مطلع شوید و ببینید چه شرکت‌هایی در حال پیاده‌سازی این فناوری هستند.

API های چندوجهی

ما در حال کار بر روی APIهای چندوجهی کاملاً جدید هستیم. این بدان معناست که می‌توانید از Gemini Nano در مورد آنچه در محتوای بصری "می‌بیند" یا در محتوای صوتی "می‌شنود" بپرسید. به عنوان مثال، پیشنهادهایی برای متن جایگزین روی تصاویر آپلود شده در یک پلتفرم وبلاگ دریافت کنید که کاربران می‌توانند آنها را اصلاح و تنظیم کنند. یا می‌توانید از Gemini Nano بخواهید توضیحات یا رونوشت‌هایی برای پادکست‌ها بنویسد.

هوش مصنوعی هیبریدی

یکی از چالش‌هایی که توسعه‌دهندگان با هوش مصنوعی سمت کلاینت مواجه هستند این است که همه پلتفرم‌ها و مرورگرها الزامات سخت‌افزاری لازم برای اجرای یک مدل روی دستگاه را ندارند. Gemini و Firebase برای ساخت Firebase Web SDK با هم همکاری کردند تا وقتی پیاده‌سازی‌های سمت کلاینت در دسترس نیستند، بتوانید به Gemini Nano روی یک سرور مراجعه کنید.

همکاری با شما

ما بسیار خوشحالیم که با این همه توسعه‌دهنده روی APIهای هوش مصنوعی داخلی همکاری کرده‌ایم. تلاش‌های ما بدون شما امکان‌پذیر نیست.

  • برنامه پیش‌نمایش اولیه : بیش از ۱۶۰۰۰ توسعه‌دهنده به EPP پیوسته‌اند، APIهای جدید را آزمایش می‌کنند، موارد استفاده جدید را کشف می‌کنند و برای ساخت هوش مصنوعی بهتر برای وب، بازخورد ارائه می‌دهند.
  • هکاتون‌ها : ما دو هکاتون برگزار کردیم و شما وب‌سایت‌ها و افزونه‌های فوق‌العاده‌ای ساختید .

کار شما تمام نشده است. به اشتراک گذاشتن بازخورد خود، آزمایش APIهای داخلی جدید ادامه دهید و ما به تکرار این روند ادامه خواهیم داد. شما حتی می‌توانید با پیوستن به گروه انجمن یادگیری ماشین وب W3C به استانداردسازی این APIها کمک کنید.

آینده افزونه‌های کروم با Gemini در مرورگر شما

تعداد افزونه‌های مبتنی بر هوش مصنوعی در دو سال گذشته دو برابر شده است. در واقع، ۱۰٪ از کل افزونه‌های نصب شده از فروشگاه وب کروم از هوش مصنوعی استفاده می‌کنند. در این سخنرانی، سباستین بنز با ارائه مثال‌های عملی توضیح می‌دهد که چرا افزونه‌های کروم و Gemini چنین ترکیب قدرتمندی هستند.

مثال‌ها شامل این می‌شود که چگونه می‌توانید با استخراج و پردازش داده‌ها از وب‌سایت‌ها در کلاینت با استفاده از رابط برنامه‌نویسی کاربردی (API) جدید کروم، مرورگر را مفیدتر کنید.

بیش از پیش پتانسیل قابلیت‌های چندوجهی جدید API اعلان کروم در افزونه‌های کروم را برای دسترسی بیشتر کاربران به صدا و تصاویر نشان داد.

با توضیح اینکه چگونه پروژه Mariner گوگل دیپ‌مایند از افزونه‌های کروم و جدیدترین APIهای Gemini Cloud برای ساخت یک عامل مرورگر تمام‌عیار استفاده می‌کند، نگاهی به آینده مرورگرها خواهیم داشت.

پتانسیل استفاده از Gemini در فضای ابری یا در مرورگر در افزونه‌های کروم را برای ایجاد تجربیات جدید مرور و مفیدتر کردن مرورگر بررسی کنید.

موارد استفاده و استراتژی‌های هوش مصنوعی وب در دنیای واقعی

یوریکو هیروتا
Yuriko Hirota
سوِتا گوپالاکریشنان
Swetha Gopalakrishnan

یوریکو هیروتا و سوئتا گوپالاکریشنان نمونه‌هایی از شرکت‌های واقعی را که از هوش مصنوعی در وب برای بهبود کسب‌وکار و تجربه کاربری خود استفاده می‌کنند، برجسته کردند. چه راه‌حل آنها از مدل‌های سمت کلاینت، سمت سرور یا یک راه‌حل ترکیبی استفاده کند، آنچه مهم است، عملکردها و ویژگی‌های جدید و هیجان‌انگیزی است که همین حالا در اختیار کاربران خود قرار می‌دهید.

BILIBILI با یک ویژگی جدید، پخش ویدیوهای خود را جذاب‌تر کرد: نظرات صفحه گلوله‌ای . آنها نظرات کاربران را به صورت بلادرنگ در ویدیو ارائه می‌دهند که پشت سر گوینده رندر می‌شود. برای انجام این کار، آنها از تقسیم‌بندی تصویر، یک مفهوم یادگیری ماشینی شناخته شده، استفاده می‌کنند. در نتیجه، مدت زمان جلسه 30٪ افزایش یافت! Tokopedia با استفاده از یک مدل تشخیص چهره، برای ارزیابی کیفیت عکس‌های آپلود شده، اصطکاک را در فرآیند تأیید فروشنده خود کاهش داد. در نتیجه، آنها تأییدهای دستی را تقریباً 70٪ کاهش دادند.

Vision Nanny، یک پلتفرم وب برای کودکان مبتلا به اختلال بینایی مغزی (CVI)، فعالیت‌های تحریک بینایی مبتنی بر هوش مصنوعی را ارائه می‌دهد. آن‌ها از چندین کتابخانه MediaPipe، از جمله مدل تشخیص نقاط کلیدی دست، استفاده می‌کنند که نقاط کلیدی دست‌ها را در یک تصویر، ویدیو یا در زمان واقعی پیدا می‌کند. یک آزمایش با ۵۰ کودک نشان داد که Vision Nanny پاسخ‌ها را ۵ برابر سریع‌تر از فعالیت‌های تحریک بصری دستی ارائه می‌دهد. درمانگران گزارش دادند که با حذف تنظیمات دستی، به طور متوسط ​​سه ساعت در هر جلسه صرفه‌جویی کرده‌اند.

گوگل میت چندین ویژگی دارد که توسط هوش مصنوعی فعال شده‌اند، از بهبود نورپردازی گرفته تا کاهش تاری و تار شدن ویدیوها. بزرگترین چالش این است که این ویژگی‌ها باید به صورت بلادرنگ کار کنند. اینجاست که WebAssembly (Wasm) وارد عمل می‌شود تا از تمام قدرت CPU کامپیوتر استفاده کند و پردازش ویدیو را به صورت بلادرنگ امکان‌پذیر سازد.

اینها تنها چند نمونه واقعی از هوش مصنوعی در وب هستند. چندین شرکت دیگر نیز با API های داخلی هوش مصنوعی آزمایش‌هایی انجام دادند که برخی از آنها کار خود را در مطالعات موردی به اشتراک گذاشتند.

عامل‌های هوش مصنوعی وب سمت کلاینت برای ساخت تجربیات کاربری هوشمندتر در آینده

جیسون مایز در مورد آینده اینترنت صحبت کرد: عامل‌های هوش مصنوعی وب. وب آینده‌ای عامل‌محور دارد و قابلیت‌های هوش مصنوعی را مستقیماً به مرورگر می‌آورد تا کارهای مفیدی را از طرف شما انجام دهد، فراتر از قابلیت‌های مدل‌های زبانی بزرگ (LLM).

با رویکرد سمت کلاینت، حریم خصوصی افزایش یافته، تأخیر کاهش یافته و صرفه‌جویی قابل توجه در هزینه‌ها به طور بالقوه حاصل می‌شود. نمایندگان به شما این امکان را می‌دهند که وب‌سایت موجود خود را ارتقا دهید، وظایف را به صورت خودکار برای یک کاربر انجام دهید، به صورت پویا ابزارهای در معرض دید را انتخاب و استفاده کنید - احتمالاً در یک حلقه - و به نماینده اجازه دهید وظایف بالقوه پیچیده یا چند مرحله‌ای را انجام دهد.

نمایندگان می‌توانند:

  • وظایف فرعی را برنامه‌ریزی و تقسیم کنید ، و مشکلات پیچیده‌تر را از طریق برنامه‌ریزی چند مرحله‌ای برای تجزیه وظیفه به مراحل منطقی برای تکمیل، مدیریت کنید.
  • بهترین ابزارها، چه توابع، چه استفاده از API، یا دسترسی به پایگاه داده برای دانش پایه مدل زبان افزوده را انتخاب کنید ، سپس اقدامات را در دنیای خارج انجام دهید.
  • حافظه مبتنی بر زمینه را بر اساس خروجی‌های قبلی از عامل یا ابزارهای خارجی حفظ کنید . حافظه کوتاه‌مدت مانند یک بافر FIFO از تاریخچه زمینه تا اندازه پنجره زمینه مدل عمل می‌کند، در مقابل حافظه بلندمدت که در آن می‌توان از یک پایگاه داده برداری برای ذخیره اطلاعات برای فراخوانی در صورت نیاز از جلسات مکالمه قبلی یا سایر منابع داده به طور کامل استفاده کرد.

عامل‌های هوش مصنوعی وب برای ادغام با فناوری‌های وب موجود در جاوا اسکریپت طراحی شده‌اند. در نهایت، مهم است که ما به شتاب‌دهی سخت‌افزار خود برای اجرای بهتر مدل‌ها در مرورگر ادامه دهیم. با نگاهی به آینده، فناوری‌هایی مانند WebNN نقش کلیدی در بهینه‌سازی اجرای مدل در CPUها، GPUها و NPUها ایفا خواهند کرد. با روند رو به رشد LLMهای کوچک‌تر و پیشرفت مداوم، این فناوری در آینده قدرتمندتر خواهد شد.

استفاده از یک رویکرد ترکیبی را در نظر بگیرید، که در آن پردازش روی دستگاه با فراخوانی‌های ابری استراتژیک ترکیب می‌شود، تا بتوانید همین الان تجربیات کاربری هوشمند، واکنش‌گرا و شخصی‌سازی‌شده‌ای را در مرورگر ایجاد کنید. به زودی، با افزایش توانایی دستگاه‌ها در اجرای LLMها، بازده سرمایه‌گذاری شما در رویکرد هوش مصنوعی وب به ثمر خواهد نشست.

با کنفرانس گوگل آی/او ۲۰۲۵ همراه باشید

ما تمام سخنرانی‌های کنفرانس گوگل آی/او ۲۰۲۵ را به همراه یک لیست پخش مختص توسعه‌دهندگان وب منتشر کرده‌ایم. برای اطلاعات بیشتر به io.google/2025 مراجعه کنید.