תאריך פרסום: 22 במאי 2025
AI משנה את האופן שבו מפתחי אתרים בונים אתרים ואפליקציות אינטרנט. בכנס Google I/O 2025, סיפרנו על מה שעבדנו עליו בשנה האחרונה, הדגמנו איך השותפים שלנו משתמשים ב-AI באינטרנט והכרזנו על ממשקי API חדשים של AI שמוטמעים במוצרים שלנו.
פיספסתם את האירוע? חדשות טובות – עכשיו אפשר לצפות בהרצאות על פי דרישה.
AI מובנה ופרקטי עם Gemini Nano ב-Chrome
המשימה העיקרית שלנו היא להפוך את Chrome ואת האינטרנט לחכמים יותר עבור כל המפתחים וכל המשתמשים. בהרצאה הזו, תומאס שטיינר משתף עדכונים לגבי AI מובנה, תרחישים מעשיים לדוגמה וסקירה של העתיד שלנו.
ה-AI המובנה מריץ מודלים בצד הלקוח בדפדפן, ויש לכך כמה יתרונות:
- פרטי: נתונים רגישים של משתמשים נשארים במכשיר, ולא נדרש להוציא אותם מהדפדפן.
- אופליין: אפליקציות יכולות לגשת ליכולות AI, גם ללא חיבור לאינטרנט.
- ביצועים טובים: ממשקי ה-API האלה מספקים ביצועים מצוינים בזכות שיפור מהירות באמצעות חומרה.
אפשר לעיין בדוגמאות קוד לכל אחד מממשקי ה-API המובנים של AI, לקבל עדכון על הסטטוס שלהם ולראות אילו חברות מטמיעות את הטכנולוגיה הזו.
ממשקי API מרובי-מוֹדָל
אנחנו עובדים על ממשקי API מולטי-מודאליים חדשים לגמרי. כלומר, אתם יכולים לשאול את Gemini Nano על מה שהוא "רואה" בתוכן חזותי או על מה שהוא "שומע" בתוכן אודיו. לדוגמה, קבלת הצעות לטקסט חלופי לתמונות שהועלו בפלטפורמת בלוגים, שהמשתמשים יכולים לשפר ולשנות. או, אפשר לבקש מ-Gemini Nano לכתוב תיאורים או תמלילים לפודקאסטים.
Hybrid AI
אחד האתגרים שעומדים בפני מפתחים שמשתמשים ב-AI בצד הלקוח הוא שלא כל הפלטפורמות והדפדפנים עומדים בדרישות החומרה להרצת מודל במכשיר. Gemini ו-Firebase שיתפו פעולה כדי ליצור את Firebase Web SDK, כך שאם הטמעות בצד הלקוח לא זמינות, אפשר להשתמש ב-Gemini Nano בשרת.
אנחנו עובדים בשבילכם
אנחנו שמחים מאוד שעבדנו עם כל כך הרבה מפתחים על ממשקי API מובנים של AI. המאמצים שלנו לא היו אפשריים בלעדיכם.
- תוכנית גישה מוקדמת: יותר מ-16,000 מפתחים הצטרפו ל-EPP, בודקים ממשקי API חדשים, מגלים תרחישי שימוש חדשים ומספקים משוב כדי ליצור AI טוב יותר לאינטרנט.
- האקתונים: ערכנו שני האקתונים, ובניתם כמה אתרים ותוספים מדהימים.
העבודה שלך לא הסתיימה. נשמח להמשיך לקבל ממך משוב ולעזור לך לבדוק את ממשקי ה-API החדשים שמוטמעים במוצר, כדי שנוכל להמשיך ולשפר את המוצר. אתם יכולים אפילו לעזור בתהליך התקנון של ממשקי ה-API האלה על ידי הצטרפות לקבוצת הקהילה ללמידת מכונה באינטרנט של W3C.
העתיד של תוספים ל-Chrome עם Gemini בדפדפן
מספר התוספים מבוססי-AI הוכפל בשנתיים האחרונות. למעשה, 10% מכל התוספים שהותקנו מחנות האינטרנט של Chrome משתמשים ב-AI. בהרצאה הזו, סבסטיאן בנץ (Sebastian Benz) נותן דוגמאות מעשיות שממחישות למה תוספים ל-Chrome ו-Gemini הם שילוב כל כך עוצמתי.
הדוגמאות כוללות הסברים על האופן שבו אפשר להפוך את הדפדפן ליעיל יותר על ידי חילוץ ועיבוד נתונים מאתרים בלקוח באמצעות ה-API החדש של ההנחיות שהושק ב-Chrome.
הדגמה של הפוטנציאל של יכולות מולטי-מודאליות חדשות של ה-API של הנחיות בתוספי Chrome, כדי להפוך אודיו ותמונות לנגישים יותר למשתמשים.
הסרטון מסביר איך פרויקט Mariner של Google DeepMind משתמש בתוספי Chrome ובממשקי Gemini Cloud API העדכניים כדי ליצור סוכן דפדפן מלא, ומציג הצצה לעתיד הגלישה.
כדי ליצור חוויות גלישה חדשות ולשפר את השימושיות של הדפדפן, אתם יכולים להשתמש ב-Gemini בענן או בדפדפן באמצעות תוספים ל-Chrome.
תרחישי שימוש ב-AI באינטרנט ואסטרטגיות בעולם האמיתי
יוריקו הירוטה וסווטה גופאלקרישנן הציגו דוגמאות מהשטח לחברות שמשתמשות ב-AI באינטרנט כדי לשפר את העסק ואת חוויית המשתמש.לא משנה אם הפתרון שלהן משתמש במודלים בצד הלקוח, בצד השרת או בפתרון היברידי, מה שחשוב הוא הפונקציות והתכונות החדשות והמרגשות שאתם מעמידים לרשות המשתמשים שלכם, כבר עכשיו.
ב-BILIBILI השיקו תכונה חדשה שמשפרת את חוויית הצפייה בשידורי הווידאו: תגובות במסך. הם מציעים תגובות של משתמשים בזמן אמת בסרטון, שמוצגות מאחורי הדובר. כדי לעשות את זה, הם משתמשים בפילוח תמונות, קונספט מוכר של למידת מכונה. כתוצאה מכך, משך הסשן עלה ב-30%! Tokopedia צמצמה את החיכוך בתהליך האימות של המוכרים באמצעות מודל לזיהוי פנים, כדי להעריך את איכות התמונות שמועלות. התוצאה: מספר האישורים הידניים ירד בכמעט 70%.
Vision Nanny היא פלטפורמת אינטרנט לילדים עם לקות ראייה מוחית (CVI), שמספקת פעילויות לגירוי הראייה שמבוססות על AI. הם משתמשים בספריות MediaPipe רבות, כולל מודל לזיהוי נקודות ציון של הידיים, שמאתר נקודות מפתח של הידיים בתמונה, בסרטון או בזמן אמת. בפיילוט עם 50 ילדים, התברר ש-Vision Nanny סיפק תשובות פי 5 מהר יותר מפעילויות ידניות של גירוי חזותי. מטפלים דיווחו על חיסכון של שלוש שעות בממוצע בכל פגישה, כי לא היה צורך בהגדרה ידנית.
ב-Google Meet יש כמה תכונות שמבוססות על AI, החל משיפור התאורה ועד להפחתת הטשטוש בסרטונים. האתגר הגדול ביותר הוא שהתכונות האלה צריכות לפעול בזמן אמת. כאן נכנס לתמונה WebAssembly (Wasm), שמאפשר לנצל את מלוא העוצמה של המעבד (CPU) במחשב ולעבד סרטונים בזמן אמת.
אלה רק כמה דוגמאות מהעולם האמיתי לשימוש ב-AI באינטרנט. כמה חברות אחרות התנסו בממשקי ה-API המובנים של AI, וחלקן שיתפו את העבודה שלהן במקרים לדוגמה.
סוכני AI באינטרנט בצד הלקוח כדי ליצור חוויות משתמש חכמות יותר בעתיד
ג'ייסון מייז הסביר על העתיד של האינטרנט: סוכני AI באינטרנט. האינטרנט צפוי להיות מבוסס על סוכנים בעתיד, ולספק יכולות AI ישירות בדפדפן, כדי לבצע עבודה שימושית בשמכם, מעבר ליכולות של מודלים גדולים של שפה (LLM).
בגישה בצד הלקוח, יש פרטיות משופרת, זמן אחזור מופחת וחיסכון משמעותי בעלויות. הסוכנים מאפשרים לשדרג את האתר הקיים, לבצע משימות באופן אוטונומי עבור משתמש, לבחור באופן דינמי כלים חשופים ולהשתמש בהם – יכול להיות שוב ושוב – וכך לאפשר לסוכן להשלים משימות מורכבות או משימות שכוללות כמה שלבים.
נציגים יכולים:
- תכנון וחלוקה של משימות משנה, טיפול בבעיות מורכבות יותר באמצעות תכנון רב-שלבי כדי לפרק את המשימה לשלבים לוגיים להשלמה.
- בחירת הכלים הכי טובים, בין אם מדובר בפונקציות, בשימוש ב-API או בגישה למאגר נתונים כדי להרחיב את הידע הבסיסי של מודל שפה, ואז ביצוע פעולות בעולם החיצוני.
- שמירת זיכרון מבוסס-הקשר, על סמך פלט קודם מהסוכן או מכלי חיצוני. זיכרון לטווח קצר פועל כמו מאגר FIFO של היסטוריית ההקשר, עד לגודל חלון ההקשר של המודל, לעומת זיכרון לטווח ארוך שבו אפשר להשתמש במסד נתונים וקטורי כדי לאחסן מידע שאפשר לשלוף לפי הצורך משיחות קודמות או ממקורות נתונים אחרים לגמרי.
סוכני AI לאינטרנט מיועדים להשתלב בטכנולוגיות אינטרנט קיימות ב-JavaScript. בסופו של דבר, חשוב שנמשיך להאיץ את החומרה שלנו כדי להפעיל את המודלים בצורה הטובה ביותר בדפדפן. בעתיד, טכנולוגיות כמו WebNN ימלאו תפקיד מרכזי באופטימיזציה של הפעלת מודלים במעבדי CPU, במעבדי GPU ובמעבדי NPU. השימוש במודלים קטנים יותר של שפה (LLM) הולך וגובר, והטכנולוגיה ממשיכה להתפתח. לכן, בעתיד היא תהיה יעילה עוד יותר.
כדאי לשקול שימוש בגישה היברידית, שמשלבת בין עיבוד במכשיר לבין קריאות אסטרטגיות לענן, כדי ליצור חוויות משתמש חכמות, רספונסיביות ומותאמות אישית בדפדפן כבר עכשיו. בקרוב, ההחזר על ההשקעה בגישת ה-AI באינטרנט אמור להשתלם, כי המכשירים יוכלו להריץ מודלים גדולים של שפה (LLM).
צפייה ב-Google I/O 2025
פרסמנו את כל ההרצאות מ-Google I/O 2025, כולל פלייליסט שמוקדש למפתחי אתרים. אפשר לצפות בעוד תוכן בכתובת io.google/2025.