Wbudowana sztuczna inteligencja

Kenji Baheux
Kenji Baheux
Alexandra Klepper
Alexandra Klepper

Data publikacji: 14 maja 2024 r.

Podczas tworzenia funkcji za pomocą modeli AI w internecie często polegamy na danych po stronie serwera. do obsługi większych modeli. Dotyczy to szczególnie generatywnej AI, nawet najmniejsze modele są około tysiąca razy większe niż mediana rozmiaru strony internetowej. Dotyczy to również innych zastosowań AI, w których modele mogą zajmować od 10 do 100 megabajtów.

Ponieważ modele nie są udostępniane na stronach, muszą je pobierać przy wczytywaniu strony. Jest to niepraktyczne rozwiązanie, deweloperzy i użytkownicy

AI po stronie serwera to świetna opcja dla dużych modeli, ale podejścia hybrydowe i na urządzeniach mają też swoje zalety. Aby utworzyć dobór różnych rozwiązań, musimy więc zająć się wielkością modelu i jego dostarczaniem.

Dlatego opracowujemy interfejsy API platformy internetowej i funkcje przeglądarki, które mają integrują modele AI, w tym duże modele językowe (LLM), bezpośrednio przeglądarki. Dotyczy to Gemini Nano, czyli najbardziej wydajnej wersji modeli LLM z rodziny Gemini, która została zaprojektowana do lokalnego uruchamiania na większości nowoczesnych komputerów stacjonarnych i laptopów. Dzięki wbudowanej sztucznej inteligencji Twoja witryna lub aplikacja internetowa może wykonywać zadania wykorzystujące AI bez konieczności wdrażania własnych modeli AI ani zarządzania nimi.

Poznaj zalety wbudowanej AI, nasz plan wdrażania i sposoby korzystania z tej technologii.

Wczesna wersja testowa

Potrzebujemy Twoich danych, aby kształtować interfejsy API, upewnić się, że spełniają one Twoje potrzeby, i brać udział w dyskusjach z innymi przeglądarkami. dostawców usług standaryzacyjnych.

Dołącz do naszego programu wczesnej wersji, aby przesyłać opinie na temat wczesnych pomysłów na wbudowaną AI i odkryć możliwości testowania interfejsów API w wersji roboczej za pomocą prototypowania lokalnego.

Dołącz do grupy publicznych ogłoszeń dla deweloperów AI w Chrome, aby otrzymywać powiadomienia o dostępnych nowych interfejsach API.

Zalety wbudowanej AI dla programistów stron internetowych

Dzięki wbudowanej AI przeglądarka udostępnia modele podstawowe i modele ekspertów oraz nimi zarządza.

W porównaniu z wykonywaniem zadań samodzielnie na urządzeniu wbudowana AI ma te zalety:

  • Łatwość wdrożenia: w miarę rozkładania modeli przeglądarka bierze pod uwagę Uwzględnia możliwości urządzenia i zarządza aktualizacjami modelu. Ten oznacza, że nie ponosisz odpowiedzialności za pobieranie ani aktualizowanie dużych modeli przez Nie musisz rozwiązywać problemów z usuwaniem miejsca na dane, budżetem pamięci środowiska wykonawczego koszty wyświetlania reklam i inne wyzwania.
  • Dostęp do akceleracji sprzętowej: środowisko wykonawcze AI w przeglądarce jest zoptymalizowane pod kątem maksymalnego wykorzystania dostępnego sprzętu, np. procesora graficznego, procesora NPU lub procesora CPU. Dlatego aplikacja może uzyskiwać najlepszą wydajność w każdym z nich, urządzenia.

Zalety korzystania z aplikacji na urządzeniu

Dzięki wbudowanej AI wykonywanie zadań związanych z AI na urządzeniu staje się banalnie proste. Daje to następujące korzyści:

  • Lokalne przetwarzanie danych wrażliwych: sztuczna inteligencja działająca na urządzeniu może poprawić o prywatności. Na przykład jeśli pracujesz z danymi wrażliwymi, możesz udostępniać AI i udostępnia użytkownikom funkcje z pełnym szyfrowaniem.
  • atrakcyjne wrażenia dla użytkowników: w niektórych przypadkach zrezygnowanie z przesyłania danych w obie strony do witryny co oznacza, że wyniki będą wyświetlane niemal natychmiast. AI na urządzeniu może być czym się różni funkcja użytecznych funkcji od nieoptymalnych wrażeń użytkownika.
  • Większy dostęp do AI: urządzenia użytkowników mogą przejąć część obciążenia obliczeniowego w zamian za większy dostęp do funkcji. Jeśli na przykład oferuje funkcje premium oparte na AI, można wypróbować je wcześniej za pomocą AI na urządzeniu aby potencjalni klienci mogli zobaczyć zalety Twojego produktu, bez dodatkowe koszty. To hybrydowe podejście może Ci też pomóc w zarządzaniu kosztami wnioskowania, zwłaszcza w przypadku często używanych ścieżek użytkownika.
  • Używanie AI offline: użytkownicy mogą korzystać z funkcji AI nawet wtedy, gdy nie ma połączenia z internetem. Oznacza to, że Twoje witryny i aplikacje internetowe mogą działać zgodnie z oczekiwaniami w trybie offline lub ze zmienną łącznością.

Hybrydowa AI: na urządzeniu i po stronie serwera

Sztuczna inteligencja na urządzeniu może obsłużyć szeroką gamę przypadków użycia, ale są też pewne które wymagają obsługi po stronie serwera.

Może być na przykład konieczne użycie większych modeli lub obsługa szerszego zakresu platform i urządzeń.

Możesz zastosować metody hybrydowe w zależności od tych czynników:

  • Złożoność: konkretne, przystępne przypadki użycia łatwiej jest obsługiwać za pomocą AI na urządzeniu. W skomplikowanych przypadkach rozważ wdrożenie po stronie serwera.
  • Zwinność: domyślnie korzystaj z modeli po stronie serwera, a na urządzeniu, gdy jest ono offline lub ma niestabilne połączenie.
  • Łatwa obsługa zastępcza: wdrożenie przeglądarek z wbudowaną AI zajmuje trochę czasu, niektóre modele mogą być niedostępne, a starsze lub mniej wydajne urządzenia mogą nie spełniają wymagania sprzętowe pozwalające na optymalne działanie wszystkich modeli. Oferta i AI po stronie serwera.

W przypadku modeli Gemini możesz korzystać z integracji backendu (z Python, OK, Node.js lub REST) lub zaimplementuj w swojej aplikacji internetowej Pakiet SDK klienta AI od Google do aplikacji internetowych.

Architektura przeglądarki i interfejsy API

Aby umożliwić korzystanie z wbudowanej AI w Chrome, stworzyliśmy infrastrukturę umożliwiającą dostęp do podstawowych i zaawansowanych modeli na potrzeby wykonywania na urządzeniu. Ta infrastruktura obsługuje już innowacyjne funkcje przeglądarki, takie jak Pomoc przy pisaniu, a wkrótce będzie obsługiwać interfejsy API dla AI na urządzeniu.

Dostęp do wbudowanych funkcji AI uzyskuje się głównie za pomocą interfejsów API zadań, takich jak translation API lub podsumowania API. Interfejsy API zadań są zaprojektowane tak, aby wnioskować na podstawie najlepszego modelu dla projektu.

W Chrome te interfejsy API zostały stworzone do uruchamiania wnioskowania względem Gemini Nano za pomocą dostrajania czy też eksperckiego modelu. Zaprojektowany z myślą o lokalnym działaniu na większości nowoczesnych urządzeń, Gemini Nano najlepiej sprawdza się w przypadkach użycia związanych z językiem, takich jak sformułowania lub kategoryzacji.

Planujemy też udostępnić eksploracyjne interfejsy API, aby umożliwić eksperymentowanie lokalne. i udostępniać dodatkowe przypadki użycia.

Możemy na przykład udostępnić:

  • Prompt API: wysyłanie dowolnego zadania wyrażonego w języku naturalnym do wbudowanego dużego modelu językowego (Gemini Nano w Chrome).
  • API do dostrojenia (LoRA): poprawia działanie wbudowanego modelu LLM w ramach zadania przez dostosowanie wag modelu za pomocą dopasowania niskiego rzędu.
Ten diagram pokazuje, jak Twoja witryna lub aplikacja może używać interfejsów API platformy internetowej do wykonywania zadań i przeszukiwania, aby uzyskiwać dostęp do modeli wbudowanych w Chrome.

Kiedy używać wbudowanej AI

Oto kilka korzyści, jakich wbudowana AI może przynieść Tobie i Twoim użytkownikom:

  • Konsumpcja treści wzbogaconych o AI: w tym streszczanie, tłumaczenie, odpowiadanie na pytania dotyczące niektórych treści, kategoryzowanie i charakterystyka.
  • Tworzenie treści z wykorzystaniem AI: np. pomoc w pisaniu, sprawdzanie poprawności, poprawianie błędów gramatycznych i przeformułowywanie.

Co dalej?

Dołącz do programu wczesnej wersji, aby eksperymentować z wbudowanymi interfejsami API AI na wczesnym etapie.

W tym czasie możesz dowiedzieć się, jak korzystać z Gemini Pro na serwerach Google w przypadku swoich witryn i aplikacji internetowych. Więcej informacji znajdziesz w artykule Szybki start z pakietem Google AI JavaScript SDK.