Ta strona została przetłumaczona przez Cloud Translation API.

Pierwsze kroki z wbudowaną AI

Alexandra Klepper

Data publikacji: 12 grudnia 2024 r., ostatnia aktualizacja: 20 maja 2025 r.

Dzięki wbudowanym interfejsom API AI Twoja aplikacja internetowa może wykonywać zadania oparte na AI bez konieczności wdrażania własnych modeli AI ani zarządzania nimi. Pracujemy nad ujednoliceniem tych interfejsów API w różnych przeglądarkach.

Wymagania

Aby korzystać z wbudowanej AI, musisz spełniać wymagania dotyczące modelu i sprzętu.

Modele

Interfejsy Translator API i Language Detector API korzystają z modeli eksperckich. Wszystkie pozostałe interfejsy API korzystają z modelu językowego, który jest przeznaczony do działania lokalnego na komputerach stacjonarnych i laptopach.

Interfejsy Summarizer API, Writer API, Rewriter API i Proofreader API obsługują tylko tryb tekstowy. Interfejs Prompt API ma możliwości multimodalne.

Gemini Nano w Chrome

Chrome korzysta z modeli językowych Gemini Nano. Gemini Nano nie jest dostępny na urządzeniach mobilnych.

Od Chrome 140 Gemini Nano obsługuje język angielski, hiszpański i japoński w przypadku tekstu wejściowego i wyjściowego.

Zanim zaczniesz korzystać z wbudowanych interfejsów API AI, zapoznaj się z zasadami Google dotyczącymi niedozwolonych zastosowań generatywnej AI.

Sprzęt

Deweloperzy i użytkownicy, którzy korzystają z funkcji używających tych interfejsów API w Chrome, muszą spełniać te wymagania. Inne przeglądarki mogą mieć inne wymagania dotyczące działania.

Interfejsy Language Detector API i Translator API działają w Chrome na komputerze. Te interfejsy API nie działają na urządzeniach mobilnych. Interfejsy Prompt API, Summarizer API, Writer API, Rewriter API i Proofreader API działają w Chrome, gdy spełnione są te warunki:

System operacyjny: Windows 10 lub 11; macOS 13 lub nowszy (Ventura i nowsze); Linux lub ChromeOS (od platformy 16389.0.0) na urządzeniach Chromebook Plus. Chrome na Androida, iOS i ChromeOS na urządzeniach innych niż Chromebook Plus nie są jeszcze obsługiwane przez interfejsy API, które korzystają z Gemini Nano.
Pamięć: co najmniej 22 GB wolnego miejsca na woluminie zawierającym profil Chrome.
Wbudowane modele powinny być znacznie mniejsze. Dokładny rozmiar może się nieznacznie różnić w zależności od aktualizacji.
GPU lub CPU: wbudowane modele mogą działać z GPU lub CPU.
- GPU: co najmniej 4 GB pamięci VRAM.
- Procesor: co najmniej 16 GB pamięci RAM i co najmniej 4 rdzenie procesora.
Sieć: nieograniczona transmisja danych lub połączenie bez limitu.
Kluczowe pojęcie: połączenie taryfowe to połączenie internetowe z ograniczoną ilością danych. Połączenia Wi-Fi i Ethernet są zwykle nielimitowane, a połączenia komórkowe często są limitowane.

Dokładny rozmiar Gemini Nano może się zmieniać w miarę aktualizowania modelu przez przeglądarkę. Aby sprawdzić aktualny rozmiar, wejdź na chrome://on-device-internals.

Zacznij tworzyć

Dostępnych jest kilka wbudowanych interfejsów API AI na różnych etapach rozwoju. Niektóre są dostępne w stabilnej wersji Chrome, inne w ramach testów origin trial, a jeszcze inne tylko dla uczestników programu wczesnego dostępu.

Każdy interfejs API ma własny zestaw instrukcji, które pomagają rozpocząć pracę i pobrać model zarówno na potrzeby lokalnego prototypowania, jak i w środowiskach produkcyjnych z testami pochodzenia.

Wszystkie te interfejsy API można wykorzystywać podczas tworzenia rozszerzeń do Chrome.

Pobieranie modelu

Interfejsy API są wbudowane w Chrome, podobnie jak modele. Gdy użytkownik po raz pierwszy wejdzie w interakcję z tymi interfejsami API, model musi zostać pobrany do przeglądarki.

Aby sprawdzić, czy interfejs API jest gotowy do użycia, wywołaj asynchroniczną funkcję availability(), która zwraca obietnicę z jedną z tych wartości:

"unavailable": urządzenie użytkownika lub opcje żądanej sesji nie są obsługiwane. Urządzenie może mieć niewystarczającą moc lub ilość miejsca na dysku.
"downloadable": Aby utworzyć sesję, musisz pobrać dodatkowe pliki, które mogą obejmować model ekspercki, model językowy lub dostrajanie. Aby wywołać funkcję create(), może być wymagana aktywacja użytkownika.
"downloading": pobieranie jest w toku i musi się zakończyć, zanim będzie można użyć sesji.
"available": sesję możesz utworzyć od razu.

Niektóre interfejsy API wymagają dodatkowych opcji podczas wywoływania dostępności. Na przykład interfejs Prompt API wymaga zadeklarowania obsługi języka:

// Makes sure the model is available for English and Japanese.
await LanguageModel.availability({ languages: ["en", "ja"] });

Aktywacja użytkownika

Jeśli urządzenie obsługuje wbudowane interfejsy API AI, ale model nie został jeszcze pobrany, użytkownik musi w znaczący sposób wejść w interakcję ze stroną, aby aplikacja mogła rozpocząć sesję z create().

Użyj właściwości UserActivation.isActive, aby potwierdzić, że użytkownik bezpośrednio wszedł w interakcję ze stroną po jej załadowaniu. Może to być dotknięcie, kliknięcie, naciśnięcie klawisza, mousedown lub inne zdarzenia aktywacji.

// Check for user activation.
if (navigator.userActivation.isActive) {
  // Create an instance of a built-in API
}

Na przykład za pomocą interfejsu Summarizer API możesz poprosić użytkowników o kliknięcie przycisku „Podsumuj”, aby aktywować Summarizer.create(), lub możesz utworzyć podsumowanie, gdy użytkownik zacznie pisać, czyli po wystąpieniu zdarzenia keydown.

Używanie interfejsów API na hoście lokalnym

Wszystkie interfejsy API są dostępne w localhost w Chrome.

Jedź do: chrome://flags/#optimization-guide-on-device-model.
Kliknij Włączono.
Kliknij Uruchom ponownie lub uruchom ponownie Chrome.

W przypadku interfejsów API, które korzystają z Gemini Nano, musisz też ustawić chrome://flags/#prompt-api-for-gemini-nano na Włączono lub Włączono w wielu językach. Możesz sprawdzić, czy model został pobrany i działa zgodnie z oczekiwaniami, w konsoli narzędzi deweloperskich. Uruchom await LanguageModel.availability(); w konsoli.

Rozwiązywanie problemów z hostem lokalnym

Jeśli flagi nie pojawiają się w chrome://flags, upewnij się, że masz pobraną najnowszą wersję Chrome.

Jeśli model nie działa zgodnie z oczekiwaniami, wykonaj te czynności:

Uruchom ponownie Chrome.
Jedź do: chrome://on-device-internals.
Wybierz kartę Stan modelu i upewnij się, że nie ma żadnych błędów.
Otwórz Narzędzia deweloperskie i wpisz LanguageModel.availability(); w konsoli. Powinno zostać zwrócone available.

W razie potrzeby poczekaj chwilę i powtórz te czynności.

Proces standardów

Pracujemy nad ujednoliceniem tych interfejsów API, aby działały we wszystkich przeglądarkach. Oznacza to, że zaproponowaliśmy interfejsy API społeczności platform internetowych i przenieśliśmy je do grupy społecznościowej Web Incubator W3C, aby kontynuować dyskusję.

W przypadku każdego interfejsu API prosimy o opinię W3C, Mozillę i WebKit.

Angażowanie się i przesyłanie opinii

Jeśli wypróbujesz wbudowaną AI i chcesz podzielić się opinią, chętnie ją poznamy.

Poznaj wszystkie wbudowane interfejsy API AI.
Dołącz do programu wcześniejszego dostępu, aby jako pierwszy poznać nowe interfejsy API i uzyskać dostęp do naszej listy mailingowej.
Jeśli masz uwagi na temat implementacji Chrome, zgłoś błąd w Chromium.
Dowiedz się więcej o standardach internetowych.