內建 AI

Kenji Baheux
Kenji Baheux
Alexandra Klepper
Alexandra Klepper

在網路上使用 AI 模型建構功能時,我們通常會使用伺服器端解決方案做為大型模型。在生成式 AI 中更是如此,即使是最小的模型,也比網頁大小中位數的大大約一千倍。 其他 AI 用途也適用 10 至 100 MB 的模型,

由於這些模型不會跨網站共用,因此每個網站都必須在載入網頁時下載模型。對於開發人員和使用者來說 這個解決方案不切實際

雖然伺服器端 AI 是大型模型的理想選擇,但裝置端和混合式做法則有專屬的缺點。為了實現這些做法,我們必須解決模型大小和模型提交問題。

因此,我們開發網路平台 API 和瀏覽器功能,將 AI 模型 (包括大型語言模型 (LLM)) 直接整合至瀏覽器。其中包括 Gemini Nano,這是 Gemini 系列中最有效率的 LLM 版本,此版本設計為在新型桌機和筆電本機上執行。透過內建的 AI 技術,您的網站或網頁應用程式就能執行 AI 技術輔助工作,無須部署或管理自己的 AI 模型。

瞭解內建 AI 的優點、我們的實作計畫,以及如何善用這項技術。

搶先試用

我們需要您的意見來塑造 API,確保 API 能滿足您的使用需求,並在我們與其他瀏覽器供應商討論時,將深入分析結果納入考量。

加入早期搶先體驗計畫,針對早期內建 AI 構想提供意見回饋,並發掘透過本機原型測試進行中 API 的機會。

加入 Chrome AI 開發人員公開公告群組,即可在新的 API 推出時收到通知。

網頁程式開發人員適用的內建 AI 技術優勢

透過內建 AI,瀏覽器可以提供及管理基礎和專家模型。

相較於自行操作裝置端 AI,內建 AI 具有下列優點:

  • 易於部署:當瀏覽器分派模型時,會考量裝置功能及管理模型的更新。也就是說,您不需要透過網路下載或更新大型模型。您不需要解決儲存空間清除問題、執行階段記憶體預算、提供成本等挑戰。
  • 硬體加速存取權:瀏覽器的 AI 執行階段已經過最佳化,能充分運用可用的硬體,無論是 GPU、NPU,還是改用 CPU 等。因此,應用程式在每部裝置上都能獲得最佳效能。

在裝置上執行的好處

透過內建 AI 做法,您可以輕鬆在裝置端執行 AI 工作,進而帶來下列缺點:

  • 在本機處理機密資料:裝置端 AI 可改善隱私權故事。舉例來說,如果您處理機密資料,可以運用端對端加密機制,為使用者提供 AI 功能。
  • Snappy 使用者體驗:在某些情況下,如果捨棄往返伺服器,您可以提供近乎即時的結果。裝置端 AI 可說是可行功能和效能不理想的使用者體驗。
  • 更易於使用 AI:使用者的裝置可能需增加部分處理負載,以換取更多功能。舉例來說,如果您提供付費 AI 功能,就可以透過裝置端 AI 預覽這些功能,讓潛在顧客不必額外付費就能瞭解產品優點。這種混合方法也有助於管理推論成本,特別是在常用使用者流程中。
  • 離線 AI 用量:無論是否有網路連線,使用者都能存取 AI 功能。這表示您的網站和網頁應用程式可在離線或變換連線的情況下正常運作。

混合型 AI:裝置和伺服器端

雖然裝置端 AI 可以處理大量的用途,但在某些情況下需要伺服器端支援。

例如,您可能需要使用較大的模型,或支援更多的平台和裝置。

您可考慮採用的混合做法,取決於:

  • 複雜度:裝置端 AI 較容易支援特定且實用的用途。如果是複雜的用途,請考慮在伺服器端導入。
  • 彈性:預設使用伺服器端,並在裝置離線或連線不穩定時使用。
  • 安全備用:採用內建 AI 的瀏覽器需要時間、某些模型可能無法使用,且舊型或效能較低的裝置可能不符合硬體需求,無法以最佳方式執行所有模型。為這些使用者提供伺服器端 AI。

針對 Gemini 模型,您可以使用後端整合功能 (PythonGoNode.jsREST),或利用新的網頁版 Google AI 用戶端 SDK,在網頁應用程式中實作。

瀏覽器架構和 API

為了支援 Chrome 內建的 AI 功能,我們建立了基礎架構,方便存取基礎和專家模型,以便在裝置端執行。這個基礎架構已可支援幫我寫等創新瀏覽器功能,不久後也會支援裝置端 AI 的 API。

您只能使用工作 API 內建的 AI 功能,例如翻譯 API 或摘要 API。工作 API 的設計宗旨,就是根據的最佳指派模型進行推論,

在 Chrome 中,這些 API 是專門透過微調或專家模型來針對 Gemini Nano 執行推論。Gemini Nano 專為在大多數的新型裝置上執行而設計,最適合用於語言相關用途,例如摘要、改寫或分類。

此外,我們也想提供探索 API,方便您在本機進行實驗及分享其他用途。

舉例來說,我們可能會提供以下資訊:

  • Prompt API:將以自然語言表示的任意工作傳送至內建大型語言模型 (Chrome 中的 Gemini Nano)。
  • 微調 (LoRA) API:透過低排名調整微調模型的權重,改善內建 LLM 的工作效能。
這張圖表呈現了網站或應用程式如何使用工作和探索性網路平台 API 存取 Chrome 內建的模型。

內建 AI 技術的使用時機

我們預期內建 AI 技術可為您和使用者帶來下列好處:

  • 使用 AI 加強內容觀看:包括提供摘要、翻譯,以及回答有關部分內容、分類和特性的問題。
  • AI 支援的內容製作:例如撰寫輔助、校對、文法校正和改寫。

後續步驟

加入早期預先發布版計畫,試用早期的內建 AI API。

與此同時,您可以參閱「Google AI JavaScript SDK 快速入門導覽課程」,瞭解如何在 Google 伺服器與您的網站和網頁應用程式使用 Gemini Pro。