KI-Vorträge bei der I/O 2025 ansehen

Alexandra Klepper
Alexandra Klepper

Veröffentlicht am 22. Mai 2025

KI verändert die Art und Weise, wie Webentwickler Websites und Webanwendungen erstellen. Auf der Google I/O 2025 haben wir vorgestellt, woran wir im letzten Jahr gearbeitet haben, gezeigt, wie unsere Partner KI im Web einsetzen, und neue integrierte KI‑APIs angekündigt.

Sie haben das Event verpasst? Gute Neuigkeiten: Sie können sich die Vorträge jetzt on demand ansehen.

Praktische integrierte KI mit Gemini Nano in Chrome

Unser Hauptziel ist es, Chrome und das Web für alle Entwickler und Nutzer intelligenter zu machen. In diesem Vortrag gibt Thomas Steiner einen Überblick über die integrierte KI, praktische Anwendungsfälle und unsere Zukunft.

Die integrierte KI führt clientseitige Modelle im Browser aus, was mehrere Vorteile bietet:

  • Privat: Sensible Nutzerdaten verbleiben auf dem Gerät und müssen den Browser nie verlassen.
  • Offline: Anwendungen können auf KI-Funktionen zugreifen, auch ohne Internetverbindung.
  • Leistungsstark: Dank Hardwarebeschleunigung bieten diese APIs eine hervorragende Leistung.

Sehen Sie sich Codebeispiele für jede der integrierten KI-APIs an, informieren Sie sich über den Status und sehen Sie, welche Unternehmen diese Technologie implementieren.

Multimodale APIs

Wir arbeiten an völlig neuen multimodalen APIs. Sie können Gemini Nano also Fragen dazu stellen, was es in visuellen Inhalten „sieht“ oder in Audioinhalten „hört“. So können Nutzer beispielsweise Vorschläge für alternativen Text für hochgeladene Bilder auf einer Blogplattform erhalten, die sie dann anpassen können. Sie könnten Gemini Nano auch bitten, Beschreibungen oder Transkriptionen für Podcasts zu erstellen.

Hybride KI

Eine Herausforderung, vor der Entwickler bei der clientseitigen KI stehen, ist, dass nicht alle Plattformen und Browser die Hardwareanforderungen erfüllen, um ein Modell auf dem Gerät auszuführen. Gemini und Firebase haben gemeinsam das Firebase Web SDK entwickelt. Wenn clientseitige Implementierungen nicht verfügbar sind, können Sie auf Gemini Nano auf einem Server zurückgreifen.

Zusammenarbeit mit Ihnen

Wir freuen uns, dass wir mit so vielen Entwicklern an integrierten KI-APIs zusammengearbeitet haben. Ohne Sie wären unsere Bemühungen nicht möglich.

Ihre Arbeit ist noch nicht abgeschlossen. Bitte geben Sie uns weiterhin Feedback und testen Sie die neuen integrierten APIs. Wir werden die APIs dann weiter verbessern. Sie können sogar dazu beitragen, diese APIs zu standardisieren, indem Sie der Web Machine Learning Community Group des W3C beitreten.

Die Zukunft von Chrome-Erweiterungen mit Gemini in Ihrem Browser

Die Anzahl der KI-basierten Erweiterungen hat sich in den letzten zwei Jahren verdoppelt. Tatsächlich nutzen 10% aller Erweiterungen, die aus dem Chrome Web Store installiert werden, KI. In diesem Vortrag gibt Sebastian Benz praktische Beispiele dafür, warum Chrome-Erweiterungen und Gemini eine so leistungsstarke Kombination sind.

Beispiele dafür sind, wie Sie den Browser hilfreicher gestalten können, indem Sie Daten von Websites auf dem Client mithilfe der neu eingeführten Prompt API von Chrome extrahieren und verarbeiten.

Wir möchten das Potenzial der neuen multimodalen Funktionen der Prompting API von Chrome in Chrome-Erweiterungen demonstrieren, um Audio und Bilder für Nutzer zugänglicher zu machen.

Wir werfen einen Blick auf die Zukunft des Browsens und erklären, wie bei Project Mariner von Google DeepMind Chrome-Erweiterungen und die neuesten Gemini Cloud APIs verwendet werden, um einen vollwertigen Browser-Agent zu entwickeln.

Entdecken Sie das Potenzial von Gemini in der Cloud oder im Browser in Chrome-Erweiterungen, um neue Browserfunktionen zu entwickeln und den Browser noch hilfreicher zu machen.

Web AI-Anwendungsfälle und ‑Strategien in der Praxis

Yuriko Hirota
Yuriko Hirota
Swetha Gopalakrishnan
Swetha Gopalakrishnan

Yuriko Hirota und Swetha Gopalakrishnan stellten Beispiele aus der Praxis vor, wie Unternehmen KI im Web einsetzen, um ihr Geschäft und die Nutzerfreundlichkeit zu verbessern.Ob ihre Lösung clientseitige, serverseitige oder hybride Modelle verwendet, wichtig sind die spannenden neuen Funktionen, die Sie Ihren Nutzern jetzt zur Verfügung stellen.

BILIBILI hat seine Videostreams mit einer neuen Funktion noch ansprechender gestaltet: Bullet-Screen-Kommentare. Sie bieten Echtzeit-Nutzerkommentare im Video, die hinter dem Sprecher gerendert werden. Dazu wird die Bildsegmentierung verwendet, ein bekanntes Konzept des maschinellen Lernens. Die Sitzungsdauer stieg um 30 %. Tokopedia hat die Reibung im Überprüfungsprozess für Verkäufer mithilfe eines Gesichtserkennungsmodells reduziert, um die Qualität der hochgeladenen Fotos zu bewerten. Dadurch konnte die Anzahl der manuellen Genehmigungen um fast 70 % gesenkt werden.

Vision Nanny ist eine Webplattform für Kinder mit zerebraler Sehbehinderung, die KI-basierte Aktivitäten zur Sehstimulation bietet. Sie verwenden mehrere MediaPipe-Bibliotheken, darunter das Modell zur Erkennung von Hand-Landmarks, mit dem Schlüsselpunkte der Hände in einem Bild, Video oder in Echtzeit lokalisiert werden. In einem Pilotprojekt mit 50 Kindern wurde gezeigt, dass Vision Nanny fünfmal schneller reagierte als manuelle visuelle Stimulationsaktivitäten. Therapeuten gaben an, dass sie durch den Wegfall der manuellen Einrichtung durchschnittlich drei Stunden pro Sitzung einsparen.

Google Meet bietet mehrere KI-basierte Funktionen, mit denen sich unter anderem die Beleuchtung verbessern und Unschärfe und Flimmern in Videos reduzieren lassen. Die größte Herausforderung besteht darin, dass diese Funktionen in Echtzeit funktionieren müssen. Hier kommt WebAssembly (Wasm) ins Spiel, um die volle Leistung der CPU eines Computers zu nutzen und die Videoverarbeitung in Echtzeit zu ermöglichen.

Das sind nur einige Beispiele für KI im Web. Mehrere andere Unternehmen haben mit den integrierten KI-APIs experimentiert. Einige haben ihre Arbeit in Fallstudien geteilt.

Clientseitige Web-KI-Agents für intelligentere zukünftige Nutzererlebnisse

Jason Mayes hat die Zukunft des Internets vorgestellt: Web-KI-Agents. Das Web hat eine Zukunft mit KI-Agenten, die KI-Funktionen direkt in den Browser bringen, um in Ihrem Namen nützliche Aufgaben zu erledigen, die über die Möglichkeiten von Large Language Models (LLMs) hinausgehen.

Ein clientseitiger Ansatz bietet einen besseren Datenschutz, eine geringere Latenz und potenziell erhebliche Kosteneinsparungen. Mit KI-Agenten können Sie Ihre bestehende Website aufwerten, indem Sie Aufgaben autonom für einen Nutzer ausführen lassen. Dabei werden Tools dynamisch ausgewählt und verwendet – möglicherweise in einer Schleife –, sodass der KI-Agent potenziell komplexe oder mehrstufige Aufgaben erledigen kann.

Kundenservicemitarbeiter können:

  • Unteraufgaben planen und aufteilen: Komplexere Probleme werden durch mehrstufige Planung in logische Schritte unterteilt, die zur Erledigung der Aufgabe erforderlich sind.
  • Die besten Tools auswählen, z. B. Funktionen, API-Nutzung oder Datenspeicherzugriff, um das Basiswissen des erweiterten Sprachmodells zu ergänzen, und dann Aktionen in der realen Welt ausführen.
  • Kontextbasierten Speicher beibehalten, basierend auf früheren Ausgaben des Agents oder externen Tools. Das Kurzzeitgedächtnis funktioniert wie ein FIFO-Puffer des Kontextverlaufs bis zur Kontextfenstergröße des Modells. Im Gegensatz dazu kann im Langzeitgedächtnis eine Vektordatenbank verwendet werden, um Informationen zu speichern, die bei Bedarf aus früheren Unterhaltungssitzungen oder anderen Datenquellen abgerufen werden können.

Web AI-Agents sind so konzipiert, dass sie in vorhandene Webtechnologien in JavaScript eingebunden werden können. Letztendlich ist es wichtig, dass wir unsere Hardware weiter beschleunigen, um Modelle im Browser optimal auszuführen. Mit Blick auf die Zukunft wird Technologie wie WebNN eine wichtige Rolle bei der Optimierung der Modellausführung auf CPUs, GPUs und NPUs spielen. Da der Trend zu kleineren LLMs geht und die Technologie sich ständig weiterentwickelt, wird sie in Zukunft noch leistungsfähiger werden.

Sie können einen hybriden Ansatz verwenden, bei dem die Verarbeitung auf dem Gerät mit strategischen Cloud-Aufrufen kombiniert wird. So können Sie jetzt intelligente, reaktionsschnelle und personalisierte Nutzererlebnisse im Browser schaffen. Bald sollte sich Ihre Investition in Web AI auszahlen, da Geräte immer besser in der Lage sind, LLMs auszuführen.

Google I/O 2025

Wir haben alle Vorträge der Google I/O 2025 veröffentlicht. Es gibt eine Playlist speziell für Webentwickler. Weitere Informationen finden Sie unter io.google/2025.