Diese Seite wurde von der Cloud Translation API übersetzt.

Integrierte KI

Kenji Baheux

Alexandra Klepper

Veröffentlicht: 14. Mai 2024, zuletzt aktualisiert: 13. November 2024

Wir entwickeln Webplattform-APIs und Browserfunktionen, die für die Arbeit mit KI-Modellen entwickelt wurden, einschließlich Large Language Models (LLMs), die im Browser eingebunden sind. Dazu gehört Gemini Nano, die effizienteste Version der LLM-Familie von Gemini, die lokal auf den meisten modernen Desktop- und Laptop-Computern ausgeführt werden kann. Mit integrierter KI kann Ihre Website oder Webanwendung KI-gestützte Aufgaben ausführen, ohne eigene KI-Modelle bereitstellen oder verwalten zu müssen.

Hier erfahren Sie mehr über die Vorteile der integrierten KI, unseren Implementierungsplan und wie Sie diese Technologie nutzen können.

Vorteile der integrierten KI für Webentwickler

Mit der integrierten KI stellt Ihr Browser Grundlagen und Expertenmodelle bereit und verwaltet sie.

Im Vergleich zur Entwicklung einer eigenen clientseitigen KI-Lösung bietet die integrierte KI folgende Vorteile:

Einfache Bereitstellung: Beim Verteilen der Modelle durch den Browser werden die Funktionen des Geräts berücksichtigt und Updates für das Modell verwaltet. Sie sind also nicht für das Herunterladen oder Aktualisieren großer Modelle über ein Netzwerk verantwortlich. Sie müssen keine Lösungen für die Auslagerung von Speicher, das Laufzeitspeicherbudget, die Bereitstellungskosten und andere Herausforderungen finden.
Zugriff auf Hardwarebeschleunigung: Die KI-Laufzeit des Browsers ist so optimiert, dass die verfügbare Hardware optimal genutzt wird, sei es eine GPU, eine NPU oder die CPU. So kann Ihre App auf jedem Gerät die bestmögliche Leistung erzielen.

Vorteile der clientseitigen Ausführung

Mit einem integrierten KI-Ansatz können KI-Aufgaben ganz einfach clientseitig ausgeführt werden. Das bietet folgende Vorteile:

Lokale Verarbeitung sensibler Daten: Clientseitige KI kann Ihre Datenschutzmaßnahmen verbessern. Wenn Sie beispielsweise mit sensiblen Daten arbeiten, können Sie Nutzern KI-Funktionen mit Ende-zu-Ende-Verschlüsselung anbieten.
Schnelle Nutzererfahrung: In einigen Fällen können Sie durch den Wegfall der Rückschleife zum Server nahezu sofortige Ergebnisse liefern. Clientseitige KI kann den Unterschied zwischen einer funktionsfähigen Funktion und einer suboptimalen Nutzererfahrung ausmachen.
Mehr Zugriff auf KI: Die Geräte Ihrer Nutzer können einen Teil der Verarbeitungslast übernehmen, um mehr Zugriff auf Funktionen zu erhalten. Wenn Sie beispielsweise Premium-KI-Funktionen anbieten, können Sie diese Funktionen mit clientseitiger KI in einer Vorschau anzeigen lassen, damit potenzielle Kunden die Vorteile Ihres Produkts sehen können, ohne dass Ihnen zusätzliche Kosten entstehen. Dieser hybride Ansatz kann Ihnen auch dabei helfen, die Inferenzkosten zu verwalten, insbesondere bei häufig verwendeten Nutzerflüssen.
Offlinenutzung von KI: Ihre Nutzer können auch dann auf KI-Funktionen zugreifen, wenn keine Internetverbindung besteht. Das bedeutet, dass Ihre Websites und Webanwendungen wie erwartet offline oder bei einer variablen Verbindung funktionieren können.

Hybrid-KI: Client- und serverseitig

Clientseitige KI kann eine Vielzahl von Anwendungsfällen bewältigen, für einige Anwendungsfälle ist jedoch serverseitige Unterstützung erforderlich.

Serverseitige KI ist eine gute Option für große Modelle und kann eine größere Bandbreite von Plattformen und Geräten unterstützen.

Je nach folgenden Faktoren können Sie einen hybriden Ansatz in Betracht ziehen:

Komplexität: Bestimmte, leicht verständliche Anwendungsfälle lassen sich mit On-Device-KI leichter unterstützen. Bei komplexen Anwendungsfällen sollten Sie eine serverseitige Implementierung in Betracht ziehen.
Ausfallsicherheit: Standardmäßig wird die serverseitige Verarbeitung verwendet. Wenn das Gerät offline ist oder eine mäßige Verbindung hat, wird die Verarbeitung auf dem Gerät ausgeführt.
Graceful Fallback: Die Einführung von Browsern mit integrierter KI wird einige Zeit in Anspruch nehmen. Einige Modelle sind möglicherweise nicht verfügbar und ältere oder weniger leistungsstarke Geräte erfüllen möglicherweise nicht die Hardwareanforderungen für die optimale Ausführung aller Modelle. Bieten Sie diesen Nutzern serverseitige KI an.

Für Gemini-Modelle können Sie die Backend-Integration (mit Python, Go, Node.js oder REST) verwenden oder sie mit dem neuen Google AI Client SDK für das Web in Ihre Webanwendung implementieren.

Browserarchitektur und APIs

Zur Unterstützung der integrierten KI in Chrome haben wir eine Infrastruktur für den Zugriff auf Foundation- und Expertenmodelle zur Ausführung auf dem Gerät erstellt. Diese Infrastruktur ermöglicht bereits innovative Browserfunktionen wie Formuliere für mich.

Sie können hauptsächlich über Aufgaben-APIs auf integrierte KI-Funktionen zugreifen, z. B. die Translator API oder die Summarizer API. Task-APIs sind so konzipiert, dass Inferenzen mit dem für die Aufgabe besten Modell ausgeführt werden.

In Chrome sind diese APIs so konzipiert, dass Inferenzen mit Gemini Nano mit Feinabstimmung oder einem Expertenmodell ausgeführt werden. Gemini Nano wurde für die lokale Ausführung auf den meisten modernen Geräten entwickelt und eignet sich am besten für sprachbezogene Anwendungsfälle wie Zusammenfassung, Umformulierung oder Kategorisierung.

Wir entwickeln explorative APIs wie die Prompt API, damit Sie lokal experimentieren und zusätzliche Anwendungsfälle teilen können.

In Zukunft werden wir möglicherweise eine explorative LoRA API anbieten, mit der Sie die Leistung des integrierten Modells durch Anpassung der Gewichte des Modells verbessern können.

Dieses Diagramm zeigt, wie Ihre Website oder App mithilfe von APIs für Webplattformen für Aufgaben und explorative Datenanalysen auf in Chrome integrierte Modelle zugreifen kann.

Wann sollte die integrierte KI verwendet werden?

Hier sind einige Möglichkeiten, wie Sie und Ihre Nutzer von der integrierten KI profitieren können:

KI-gestützte Inhalte: Dazu gehören Zusammenfassung, Übersetzung, Kategorisierung, Charakterisierung und die Bereitstellung von Wissen.
KI-gestützte Erstellung von Inhalten: Dazu gehören Schreibhilfen, Korrekturlesen, Grammatikkorrektur und Umformulierungen.

Nächste Schritte

Einige der eingebauten KI-APIs können in Ursprungstests getestet werden. Explorative APIs und andere APIs in der Anfangsphase sind für Teilnehmer des Early Preview-Programms (EPP) verfügbar.

In der Kurzanleitung für das Google AI JavaScript SDK erfahren Sie, wie Sie Gemini Pro auf den Google-Servern mit Ihren Websites und Web-Apps verwenden.

Vorschau ansehen

Wir benötigen Ihren Input, um die APIs zu gestalten, dafür zu sorgen, dass sie Ihre Anwendungsfälle erfüllen, und unsere Gespräche mit anderen Browseranbietern zur Standardisierung zu informieren.

Treten Sie dem EPP bei, um Feedback zu Ideen für integrierte KI in der Anfangsphase zu geben und Möglichkeiten zu entdecken, in der Entwicklung befindliche APIs durch lokales Prototyping zu testen.

Treten Sie der Gruppe für öffentliche Ankündigungen für Chrome AI-Entwickler bei, um benachrichtigt zu werden, wenn neue APIs verfügbar sind.