Wbudowana sztuczna inteligencja

Kenji Baheux
Kenji Baheux

Data publikacji: 14 maja 2024 r., ostatnia aktualizacja: 13 listopada 2024 r.

Podczas tworzenia funkcji z modelami AI w internecie często korzystamy z rozwiązań po stronie serwera w przypadku większych modeli. Dotyczy to zwłaszcza generatywnej AI, w której przypadku nawet najmniejsze modele są około tysiąca razy większe niż średni rozmiar strony internetowej. Dotyczy to też innych zastosowań AI, w których modele mogą zajmować od 10 do 100 megabajtów. Ponieważ te modele nie są udostępniane w różnych witrynach, każda witryna musi je pobrać podczas wczytywania strony. Jest to niepraktyczne dla programistów i użytkowników.

Opracowujemy interfejsy API platformy internetowej i funkcje przeglądarki, które mają na celu integrację modeli AI, w tym dużych modeli językowych (LLM), bezpośrednio w przeglądarce. Dotyczy to Gemini Nano, czyli najbardziej wydajnej wersji modeli LLM z rodziny Gemini, która została zaprojektowana do lokalnego uruchamiania na większości nowoczesnych komputerów stacjonarnych i laptopów. Dzięki wbudowanej sztucznej inteligencji Twoja witryna lub aplikacja internetowa może wykonywać zadania oparte na AI bez konieczności wdrażania własnych modeli AI ani zarządzania nimi.

Poznaj zalety wbudowanej AI, nasz plan wdrażania i sposoby korzystania z tej technologii.

Wczesna wersja testowa

Potrzebujemy Twoich opinii, aby ulepszać interfejsy API, zapewnić ich zgodność z Twoimi przypadkami użycia oraz uwzględnić je w dyskusjach ze sprzedawcami innych przeglądarek na potrzeby standaryzacji.

Dołącz do naszego programu wczesnej wersji zapoznawczej, aby przesyłać opinie na temat wczesnych pomysłów na wbudowaną AI i odkryć możliwości testowania interfejsów API w wersji roboczej za pomocą lokalnego prototypowania.

Dołącz do grupy publicznych ogłoszeń dla deweloperów AI w Chrome, aby otrzymywać powiadomienia o dostępnych nowych interfejsach API.

Zalety wbudowanej AI dla programistów stron internetowych

Dzięki wbudowanej AI przeglądarka udostępnia modele podstawowe i modele ekspertów oraz nimi zarządza.

W porównaniu z tworzeniem własnej AI po stronie klienta wbudowana AI ma te zalety:

  • Łatwość wdrożenia: przeglądarka rozpowszechnia modele, biorąc pod uwagę możliwości urządzenia i zarządzając aktualizacjami modelu. Oznacza to, że nie odpowiadasz za pobieranie ani aktualizowanie dużych modeli w sieci. Nie musisz rozwiązywać problemów związanych z usuwaniem danych z bufora, budżetem pamięci na czas wykonywania, kosztami obsługi czy innymi wyzwaniami.
  • Dostęp do akceleracji sprzętowej: środowisko wykonawcze AI w przeglądarce jest zoptymalizowane pod kątem maksymalnego wykorzystania dostępnego sprzętu, np. procesora graficznego, procesora NPU lub procesora CPU. Dzięki temu Twoja aplikacja może osiągnąć najlepszą wydajność na każdym urządzeniu.

Zalety uruchamiania reklam po stronie klienta

Dzięki wbudowanej sztucznej inteligencji wykonywanie zadań AI po stronie klienta staje się banalnie proste. Daje to następujące korzyści:

  • Lokalne przetwarzanie danych wrażliwych: AI po stronie klienta może zwiększyć prywatność. Jeśli na przykład pracujesz z danymi wrażliwymi, możesz oferować użytkownikom funkcje AI z pełnym szyfrowaniem.
  • Szybka obsługa użytkownika: w niektórych przypadkach rezygnacja z podwójnego połączenia z serwerem oznacza, że możesz zaoferować niemal natychmiastowe wyniki. Sztuczna inteligencja po stronie klienta może być czynnikiem, który decyduje o tym, czy dana funkcja będzie przydatna, czy też wrażenia użytkownika będą nieoptymalne.
  • Większy dostęp do AI: urządzenia użytkowników mogą przejąć część obciążenia obliczeniowego w zamian za większy dostęp do funkcji. Jeśli na przykład oferujesz funkcje AI premium, możesz wyświetlać ich podgląd za pomocą AI po stronie klienta, aby potencjalni klienci mogli poznać zalety Twojego produktu bez dodatkowych kosztów. To hybrydowe podejście może Ci też pomóc w zarządzaniu kosztami wnioskowania, zwłaszcza w przypadku często używanych ścieżek użytkownika.
  • Używanie AI offline: użytkownicy mogą korzystać z funkcji AI nawet wtedy, gdy nie ma połączenia z internetem. Oznacza to, że Twoje witryny i aplikacje internetowe mogą działać zgodnie z oczekiwaniami w trybie offline lub przy zmiennej jakości połączenia.

AI hybrydowe: po stronie klienta i po stronie serwera

AI po stronie klienta może obsługiwać wiele przypadków użycia, ale niektóre z nich wymagają obsługi po stronie serwera.

AI po stronie serwera to świetna opcja dla dużych modeli, która może obsługiwać szerszy zakres platform i urządzeń.

W zależności od sytuacji możesz rozważyć podejście hybrydowe:

  • Złożoność: konkretne, przystępne przypadki użycia łatwiej jest obsługiwać za pomocą AI na urządzeniu. W skomplikowanych przypadkach rozważ wdrożenie po stronie serwera.
  • Odporność: domyślnie korzystaj z modeli po stronie serwera, a na urządzeniu, gdy jest ono offline lub ma niestabilne połączenie.
  • Przyjazne przełączanie na inne rozwiązania: wdrożenie przeglądarek z wbudowaną AI zajmie trochę czasu, niektóre modele mogą być niedostępne, a starsze lub mniej wydajne urządzenia mogą nie spełniać wymagań sprzętowych umożliwiających optymalne działanie wszystkich modeli. Zaoferujmy tym użytkownikom AI po stronie serwera.

W przypadku modeli Gemini możesz użyć integracji z backendem (z użyciem Pythona, Go, Node.js lub REST) albo zaimplementować w swojej aplikacji internetowej nowy pakiet SDK klienta Google AI na potrzeby internetu.

Architektura przeglądarki i interfejsy API

Aby umożliwić korzystanie z wbudowanej AI w Chrome, stworzyliśmy infrastrukturę umożliwiającą dostęp do podstawowych i zaawansowanych modeli na potrzeby wykonywania na urządzeniu. Ta infrastruktura jest już wykorzystywana do obsługi innowacyjnych funkcji przeglądarki, takich jak Pomóż mi napisać.

Dostęp do wbudowanych funkcji AI możesz uzyskać głównie za pomocą interfejsów API do zadań, takich jak interfejs Translator API czy Summarizer API. Interfejsy API zadań są zaprojektowane tak, aby uruchamiać wnioskowanie na podstawie najlepszego modelu do danego zadania.

W Chrome te interfejsy API są przeznaczone do przeprowadzania wnioskowania na podstawie modelu Gemini Nano z dokładnym dostrojeniem lub modelu eksperckiego. Gemini Nano został zaprojektowany do działania lokalnie na większości nowoczesnych urządzeń. Najlepiej sprawdza się w przypadkach związanych z językiem, takich jak streszczanie, przeformułowywanie czy kategoryzowanie.

Udostępniamy też interfejsy API do eksploracji, takie jak Prompt API, aby umożliwić Ci eksperymentowanie lokalnie i udostępnianie dodatkowych zastosowań.

W przyszłości możemy udostępnić eksploracyjny interfejs LoRA API, który pozwoli Ci poprawić skuteczność wbudowanego modelu przez dostosowanie jego wag.

Ten diagram pokazuje, jak Twoja witryna lub aplikacja może używać interfejsów API platformy internetowej do wykonywania zadań i przeszukiwania, aby uzyskiwać dostęp do modeli wbudowanych w Chrome.

Kiedy używać wbudowanej AI

Oto kilka sposobów, w jakie wbudowana AI może przynieść korzyści Tobie i Twoim użytkownikom:

  • Konsumpcja treści wzbogaconych o AI: obejmuje streszczanie, tłumaczenie, kategoryzowanie, opisywanie i dostarczanie wiedzy.
  • Tworzenie treści z wykorzystaniem AI: np. pomoc w pisaniu, sprawdzanie poprawności, poprawianie błędów gramatycznych i przekształcanie zdań.

Co dalej?

W okresie testowania origin można testować kilka wbudowanych interfejsów API AI. Eksperymentalne interfejsy API i inne interfejsy API na etapie wczesnym są dostępne dla uczestników programu wczesnej wersji zapoznawczej.

Dowiedz się, jak korzystać z Gemini Pro na serwerach Google w przypadku swoich witryn i aplikacji internetowych. Więcej informacji znajdziesz w artykule Szybki start z pakietem SDK Google AI JavaScript.