W ciągu ostatniego roku wiele się zmieniło w AI do wyszukiwania w internecie. Jeśli nie udało Ci się obejrzeć, podczas konferencji I/O 2024 przedstawiliśmy nowe modele, narzędzia i interfejsy API na potrzeby Twojej następnej aplikacji internetowej.
Web AI to zestaw technologii i technik, które umożliwiają korzystanie z modeli systemów uczących się po stronie klienta w przeglądarce internetowej na procesorze lub procesorze graficznym urządzenia. Można je tworzyć za pomocą JavaScriptu i innych technologii internetowych, takich jak WebAssembly i WebGPU. Jest to inne podejście niż sztuczna inteligencja po stronie serwera lub „sztuczna inteligencja w chmurze”, gdzie model jest uruchamiany na serwerze i dostępny za pomocą interfejsu API.
W ramach tego wystąpienia omówiliśmy:
- jak uruchamiać nasze nowe duże modele językowe (LLM) w przeglądarce i jakie są konsekwencje uruchamiania modeli po stronie klienta;
- spojrzenie w przyszłość Visual Blocks, aby szybciej tworzyć prototypy;
- oraz jak programiści mogą używać JavaScriptu w Chrome do pracy z AI w internecie na dużą skalę.
LLM w przeglądarce
Gemma Web to nowy otwarty model Google, który może działać w przeglądarce na urządzeniu użytkownika. Został on opracowany na podstawie tych samych badań i technologii, które wykorzystaliśmy do stworzenia Gemini.
Dzięki przeniesieniem LLM na urządzenie można znacznie obniżyć koszty w porównaniu z wykorzystywaniem serwera w chmurze do wnioskowania. Pozwala to też zwiększyć prywatność użytkowników i obniżyć opóźnienia. Generatywne AI w przeglądarce jest wciąż w fazie wstępnej, ale wraz z ulepszaniem sprzętu (większa ilość pamięci RAM procesora i procesora graficznego) spodziewamy się, że będzie można korzystać z większej liczby modeli.
Firmy mogą inaczej spojrzeć na to, co można zrobić na stronie internetowej, zwłaszcza w przypadku zastosowań związanych z konkretnymi zadaniami, w których przypadku wagi mniejszych modeli LLM (2–8 mld parametrów) można dostosować do działania na sprzęcie konsumenckim.
Gemma 2B można pobrać na Kaggle Models. Model jest dostępny w formacie zgodnym z naszym interfejsem API do wnioskowania oparte na LLM w internecie. Inne obsługiwane architektury to Microsoft Phi-2, Falcon RW 1B i stabilna LM 3B, które można przekonwertować do formatu obsługiwanego przez środowisko wykonawcze za pomocą naszej biblioteki konwertera.
Szybsze tworzenie prototypów za pomocą bloków wizualnych
Współpracujemy z firmą Hugging Face, która stworzyła 16 zupełnie nowych węzłów niestandardowych do bloków wizualnych. Dzięki temu Transformers.js i całe ekosystem Hugging Face będą dostępne w Visual Blocks.
Osiem z tych nowych węzłów działa całkowicie po stronie klienta z wykorzystaniem AI w internecie, w tym:
- Segmentacja obrazu
- Tłumaczenie
- Klasyfikacja tokenów
- wykrywanie obiektów,
- Klasyfikacja tekstu
- Usuwanie tła
- szacowanie głębi,
Dodatkowo Hugging Face udostępnia 7 zadań systemów uczących się po stronie serwera, które umożliwiają uruchamianie tysięcy modeli za pomocą interfejsów API w Visual Blocks. Zapoznaj się z kolekcją bloków wizualnych Hugging Face.
Korzystanie z JavaScriptu do tworzenia AI do zastosowań internetowych na dużą skalę w Chrome
W tych przypadkach, np. w przypadku Gemma, model jest wczytywany i uruchamiany na stronie internetowej. W Chrome pracujemy nad wbudowaną na urządzeniu AI, która umożliwi Ci dostęp do modeli za pomocą standardowych interfejsów JavaScript API do określonych zadań.
To nie wszystko. W Chrome zaktualizowano też WebGPU, aby obsługiwało 16-bitowe wartości zmiennoprzecinkowe.
WebAssembly ma nową propozycję, Memory64, która obsługuje 64-bitowe indeksy pamięci. Pozwoli to na wczytywanie większych modeli AI niż do tej pory.
Rozpocznij testowanie modeli AI w przeglądarce bez grafiki
Teraz możesz testować AI po stronie klienta (lub dowolną aplikację wymagającą obsługi WebGL lub WebGPU) za pomocą przeglądarki Chrome bez wyświetlacza, korzystając z procesorów graficznych na serwerze do przyspieszania, takich jak NVIDIA T4 lub P100. Więcej informacji:
- Uruchom go w Google Colab
- Przeczytaj szczegółowe omówienie testów
- Sprawdź też przykładowy kod na GitHubie.
Pamiętaj, aby podczas udostępniania swoich projektów dodawać hashtag #WebAI, dzięki czemu większa społeczność będzie mogła zobaczyć Twoje prace. Udostępnij swoje wyniki i sugestie w X, LinkedIn lub na ulubionej platformie społecznościowej.