Wbudowana sztuczna inteligencja

Kenji Baheux
Kenji Baheux
Alexandra Klepper
Alexandra Klepper

Gdy tworzymy funkcje za pomocą modeli AI w internecie, często polegamy na rozwiązaniach po stronie serwera dla większych modeli. Dotyczy to zwłaszcza generatywnej AI, w której nawet najmniejsze modele są około tysiąc razy większe od mediany rozmiaru strony internetowej. Dotyczy to również innych zastosowań AI, w których modele mogą mieć rozmiar od 10 do 100 megabajtów.

Te modele nie są współdzielone przez witryny, więc każda witryna musi je pobierać przy wczytywaniu strony. To niepraktyczne rozwiązanie dla programistów i użytkowników,

AI po stronie serwera doskonale sprawdza się w przypadku dużych modeli, ale podejście hybrydowe i na urządzeniu ma swoje zalety. Aby było to możliwe, musimy uwzględnić rozmiar i dostarczanie modeli.

Dlatego opracowujemy interfejsy API platform internetowych i funkcje przeglądarek, które pozwalają integrować modele AI, w tym duże modele językowe (LLM), bezpośrednio w przeglądarce. Obejmuje to Gemini Nano – najskuteczniejszą wersję LLM z rodziną Gemini, która działa lokalnie na większości nowoczesnych komputerów i laptopów. Dzięki wbudowanej AI witryna lub aplikacja internetowa może wykonywać zadania oparte na AI bez konieczności wdrażania własnych modeli AI ani zarządzania nimi.

Poznaj zalety wbudowanej sztucznej inteligencji, nasz plan wdrożenia i dowiedz się, jak możesz wykorzystać tę technologię.

Wcześniejsza wersja testowa

Potrzebujemy Twojej opinii, by kształtować interfejsy API, zapewnić ich zgodność z Twoimi przypadkami użycia i wziąć udział w dyskusjach z innymi dostawcami przeglądarek na temat standaryzacji.

Dołącz do naszego programu wczesnej wersji przedpremierowej, aby podzielić się opinią o wbudowanych na wczesnym etapie pomysłów i odkryć możliwości testowania gotowych interfejsów API za pomocą lokalnych prototypów.

Dołącz do grupy publicznych ogłoszeń dla deweloperów AI w Chrome, aby otrzymywać powiadomienia, gdy będą dostępne nowe interfejsy API.

Zalety wbudowanej AI dla programistów stron internetowych

Dzięki wbudowanej AI przeglądarka udostępnia podstawy i modele eksperckie oraz nimi zarządza.

W porównaniu do samodzielnej pracy z AI na urządzeniu wbudowana sztuczna inteligencja ma następujące zalety:

  • Łatwość wdrażania: przeglądarka rozpowszechnia modele, biorąc pod uwagę możliwości urządzenia i zarządzanie aktualizacjami modelu. Oznacza to, że nie odpowiadasz za pobieranie ani aktualizowanie dużych modeli przez sieć. Nie musisz rozwiązywać problemów związanych z usuwaniem miejsca na dane, budżetem pamięci środowiska wykonawczego, kosztami obsługi i innymi wyzwaniami.
  • Dostęp do akceleracji sprzętowej: środowisko wykonawcze AI w przeglądarce jest zoptymalizowane pod kątem maksymalnego wykorzystania dostępnego sprzętu – może to być procesor graficzny, NPU lub procesor. Dzięki temu aplikacja może najlepiej działać na każdym urządzeniu.

Zalety uruchamiania na urządzeniu

Dzięki wbudowanej sztucznej inteligencji wykonywanie zadań związanych z AI na urządzeniu staje się proste, a to z kolei ma takie korzyści:

  • Lokalne przetwarzanie danych wrażliwych: sztuczna inteligencja na urządzeniu może zwiększyć ochronę Twojej prywatności. Jeśli na przykład pracujesz z danymi wrażliwymi, możesz oferować użytkownikom funkcje AI z pełnym szyfrowaniem.
  • Atrakcyjne wrażenia użytkownika: w niektórych przypadkach rezygnacja z ruchu w obie strony do serwera pozwala oferować wyniki niemal natychmiast. Sztuczna inteligencja na urządzeniu może odróżnić realną funkcję od nieoptymalnej.
  • Większy dostęp do AI: urządzenia użytkowników mogą przejąć część zadań przetwarzania w zamian za lepszy dostęp do funkcji. Jeśli na przykład oferujesz funkcje premium AI, możesz wyświetlić ich podgląd za pomocą sztucznej inteligencji na urządzeniu, aby potencjalni klienci mogli poznać zalety Twojego produktu bez dodatkowych kosztów. To podejście hybrydowe może też pomóc w zarządzaniu kosztami wnioskowania, zwłaszcza w przypadku często używanych przepływów użytkowników.
  • Wykorzystanie AI offline: użytkownicy mogą korzystać z funkcji AI nawet wtedy, gdy nie mają połączenia z internetem. Oznacza to, że witryny i aplikacje internetowe mogą działać zgodnie z oczekiwaniami w trybie offline lub przy zmiennych połączeniach.

Hybrydowa AI: na urządzeniu i po stronie serwera

AI na urządzeniu jest w stanie obsłużyć wiele różnych przypadków użycia, ale pewne przypadki użycia wymagają obsługi po stronie serwera.

Być może konieczne będzie użycie większych modeli lub obsługi większej liczby platform i urządzeń.

Możesz rozważyć podejście hybrydowe w zależności od:

  • Złożoność: dzięki AI na urządzeniu konkretne, zrozumiałe przypadki użycia są łatwiejsze w obsłudze. W skomplikowanych przypadkach użycia rozważ wdrożenie po stronie serwera.
  • Odporność: domyślnie działa po stronie serwera, a urządzenie jest dostępne na urządzeniu, gdy jest offline lub ma niestabilne połączenie.
  • Zachowanie kreacji zastępczej: rozpowszechnienie przeglądarek z wbudowaną AI wymaga czasu, niektóre modele mogą być niedostępne, a starsze lub mniej wydajne urządzenia mogą nie spełniać wymagań sprzętowych potrzebnych do optymalnego działania wszystkich modeli. Zaoferuj tym użytkownikom sztuczną inteligencję po stronie serwera.

W przypadku modeli Gemini możesz użyć integracji backendu (z użyciem języka Python, Go, Node.js lub REST) albo wdrożyć je w aplikacji internetowej za pomocą nowego pakietu SDK do obsługi klienta AI od Google.

Architektura przeglądarek i interfejsy API

Aby obsługiwać wbudowaną AI w Chrome, stworzyliśmy infrastrukturę, która zapewnia dostęp do modeli podstawowych i eksperckich do wykonywania na urządzeniu. Ta infrastruktura obsługuje już innowacyjne funkcje przeglądarek, takie jak Pomóż mi napisać, a wkrótce będą obsługiwać interfejsy API sztucznej inteligencji na urządzeniu.

Będziesz mieć dostęp do wbudowanych funkcji AI głównie za pomocą interfejsów API zadań, takich jak translation API czy interfejs API podsumowania. Interfejsy API zadań są zaprojektowane w taki sposób, aby uruchamiać wnioskowanie w oparciu o najlepszy model przypisania.

W Chrome te interfejsy API są zaprojektowane tak, aby uruchamiać wnioskowanie w odniesieniu do Gemini Nano za pomocą dostrajania lub modelu eksperckiego. Gemini Nano działa lokalnie na większości nowoczesnych urządzeń. Najlepiej sprawdza się w przypadkach związanych z językiem, takich jak podsumowywanie, przeformułowanie czy kategoryzowanie.

Zamierzamy też udostępnić eksploracyjne interfejsy API, które umożliwią eksperymentowanie lokalnie i udostępnianie dodatkowych przypadków użycia.

Możemy na przykład udostępniać:

  • Prompt API: pozwala wysyłać dowolne zadanie wyrażone w języku naturalnym do wbudowanego dużego modelu językowego (Gemini Nano w Chrome).
  • Interfejs API dostrajania (LoRA): popraw wydajność wbudowanego LLM w zadaniu, dostosowując wagi modelu za pomocą dostrajania na niskiej pozycji.
Ten diagram pokazuje, w jaki sposób witryna lub aplikacja może korzystać z interfejsów API opartych na działaniach i eksploracyjnych platform internetowych, aby uzyskiwać dostęp do modeli wbudowanych w Chrome.

Kiedy używać wbudowanej AI

Oto kilka sposobów, w jakie wbudowana sztuczna inteligencja może przynieść korzyści Tobie i Twoim użytkownikom:

  • Wykorzystanie treści rozszerzonych przez sztuczną inteligencję: w tym podsumowywanie, tłumaczenie, odpowiadanie na pytania dotyczące niektórych treści, kategoryzowanie i charakterystyka.
  • Tworzenie treści przy użyciu AI: na przykład pomoc w pisaniu, korekta, korekta gramatyki i przeredagowanie.

Co dalej?

Dołącz do naszego programu wczesnej wersji przedpremierowej, aby eksperymentować z wbudowanymi interfejsami API AI na wczesnym etapie tworzenia.

W międzyczasie możesz dowiedzieć się, jak używać Gemini Pro w witrynach i aplikacjach internetowych na serwerach Google, z naszego krótkiego wprowadzenia do pakietu SDK Google AI JavaScript.