Ta strona została przetłumaczona przez Cloud Translation API.

Podsumowanie konferencji I/O 2024 Web AI: nowe modele, narzędzia i interfejsy API dla Twojej nowej aplikacji internetowej

Jason Mayes

Alexandra Klepper

W ciągu ostatniego roku wiele się zmieniło w AI do wyszukiwania w internecie. Jeśli nie udało Ci się obejrzeć, podczas konferencji I/O 2024 przedstawiliśmy nowe modele, narzędzia i interfejsy API na potrzeby Twojej następnej aplikacji internetowej.

Web AI to zestaw technologii i technik, które umożliwiają korzystanie z modeli systemów uczących się po stronie klienta w przeglądarce internetowej na procesorze lub procesorze graficznym urządzenia. Można je tworzyć za pomocą JavaScriptu i innych technologii internetowych, takich jak WebAssembly i WebGPU. Jest to inne podejście niż sztuczna inteligencja po stronie serwera lub „sztuczna inteligencja w chmurze”, gdzie model jest uruchamiany na serwerze i dostępny za pomocą interfejsu API.

W ramach tego wystąpienia omówiliśmy:

jak uruchamiać nasze nowe duże modele językowe (LLM) w przeglądarce i jakie są konsekwencje uruchamiania modeli po stronie klienta;
spojrzenie w przyszłość Visual Blocks, aby szybciej tworzyć prototypy;
oraz jak programiści mogą używać JavaScriptu w Chrome do pracy z AI w internecie na dużą skalę.

LLM w przeglądarce

Gemma Web to nowy otwarty model Google, który może działać w przeglądarce na urządzeniu użytkownika. Został on opracowany na podstawie tych samych badań i technologii, które wykorzystaliśmy do stworzenia Gemini.

Dzięki przeniesieniem LLM na urządzenie można znacznie obniżyć koszty w porównaniu z wykorzystywaniem serwera w chmurze do wnioskowania. Pozwala to też zwiększyć prywatność użytkowników i obniżyć opóźnienia. Generatywne AI w przeglądarce jest wciąż w fazie wstępnej, ale wraz z ulepszaniem sprzętu (większa ilość pamięci RAM procesora i procesora graficznego) spodziewamy się, że będzie można korzystać z większej liczby modeli.

Firmy mogą inaczej spojrzeć na to, co można zrobić na stronie internetowej, zwłaszcza w przypadku zastosowań związanych z konkretnymi zadaniami, w których przypadku wagi mniejszych modeli LLM (2–8 mld parametrów) można dostosować do działania na sprzęcie konsumenckim.

Gemma 2B można pobrać na Kaggle Models. Model jest dostępny w formacie zgodnym z naszym interfejsem API do wnioskowania oparte na LLM w internecie. Inne obsługiwane architektury to Microsoft Phi-2, Falcon RW 1B i stabilna LM 3B, które można przekonwertować do formatu obsługiwanego przez środowisko wykonawcze za pomocą naszej biblioteki konwertera.

Szybsze tworzenie prototypów za pomocą bloków wizualnych

Za pomocą Visual Blocks możesz szacować głębię na kliencie bez konieczności pisania kodu.

Współpracujemy z firmą Hugging Face, która stworzyła 16 zupełnie nowych węzłów niestandardowych do bloków wizualnych. Dzięki temu Transformers.js i całe ekosystem Hugging Face będą dostępne w Visual Blocks.

Osiem z tych nowych węzłów działa całkowicie po stronie klienta z wykorzystaniem AI w internecie, w tym:

Dodatkowo Hugging Face udostępnia 7 zadań systemów uczących się po stronie serwera, które umożliwiają uruchamianie tysięcy modeli za pomocą interfejsów API w Visual Blocks. Zapoznaj się z kolekcją bloków wizualnych Hugging Face.

Korzystanie z JavaScriptu do tworzenia AI do zastosowań internetowych na dużą skalę w Chrome

W tych przypadkach, np. w przypadku Gemma, model jest wczytywany i uruchamiany na stronie internetowej. W Chrome pracujemy nad wbudowaną na urządzeniu AI, która umożliwi Ci dostęp do modeli za pomocą standardowych interfejsów JavaScript API do określonych zadań.

To nie wszystko. W Chrome zaktualizowano też WebGPU, aby obsługiwało 16-bitowe wartości zmiennoprzecinkowe.

WebAssembly ma nową propozycję, Memory64, która obsługuje 64-bitowe indeksy pamięci. Pozwoli to na wczytywanie większych modeli AI niż do tej pory.

Rozpocznij testowanie modeli AI w przeglądarce bez grafiki

Teraz możesz testować AI po stronie klienta (lub dowolną aplikację wymagającą obsługi WebGL lub WebGPU) za pomocą przeglądarki Chrome bez wyświetlacza, korzystając z procesorów graficznych na serwerze do przyspieszania, takich jak NVIDIA T4 lub P100. Więcej informacji:

Uruchom go w Google Colab
Przeczytaj szczegółowe omówienie testów
Sprawdź też przykładowy kod na GitHubie.

Pamiętaj, aby podczas udostępniania swoich projektów dodawać hashtag #WebAI, dzięki czemu większa społeczność będzie mogła zobaczyć Twoje prace. Udostępnij swoje wyniki i sugestie w X, LinkedIn lub na ulubionej platformie społecznościowej.