過去一年,Web AI 發生了許多變化。如您錯過了這項資訊,我們在 2024 年 I/O 大會上,曾針對下一代網頁應用程式介紹新模型、工具和 API。
Web AI 是一組技術,可用於在裝置的 CPU 或 GPU 上執行網路瀏覽器的用戶端,使用機器學習 (ML) 模型。您可以使用 JavaScript 和其他網路技術 (例如 WebAssembly 和 WebGPU) 建構此類應用程式。這與伺服器端 AI 或「雲端 AI」不同,後者會在伺服器上執行模型,並透過 API 存取模型。
這場演講內容包括:
- 如何在瀏覽器中執行新的大型語言模型 (LLM),以及在用戶端執行模型的影響。
- 一窺Visual Blocks 的未來,加快原型設計作業
- 以及網路開發人員如何在 Chrome 中使用 JavaScript 與 Web AI 進行大規模合作。
瀏覽器中的 LLM
Gemma Web 是 Google 推出的全新開放式模型,可在使用者裝置的瀏覽器中執行,採用與建立 Gemini 模型時相同的研究成果和技術。
將 LLM 放在裝置上,與在雲端伺服器上執行推論相比,可大幅節省成本,同時提升使用者隱私權並縮短延遲時間。瀏覽器中的生成式 AI 仍處於初期階段,但隨著硬體持續改善 (CPU 和 GPU RAM 容量增加),我們預期會有更多模型推出。
企業可以重新思考在網頁上執行的作業,尤其是針對特定工作用途,因為在這種情況下,可以調整較小的 LLM (2 到 80 億個參數) 權重,以便在消費性硬體上執行。
Gemma 2B 可在 Kaggle 模型下載,且格式與我們的 Web LLM 推論 API 相容。其他支援的架構包括 Microsoft Phi-2、Falcon RW 1B 和 Stable LM 3B,您可以使用我們的轉換器程式庫將這些架構轉換為執行階段可用的格式。
使用 Visual Blocks 加快原型設計速度
我們與 Hugging Face 合作,為Visual Blocks 建立了 16 個全新的自訂節點。這項更新會將 Transformers.js 和更廣泛的 Hugging Face 生態系統納入 Visual Blocks。
其中八個新節點會完全在用戶端執行,並搭配使用 Web AI,包括:
此外,Hugging Face 提供七項伺服器端 ML 工作,可讓您在 Visual Blocks 中透過 API 執行數千個模型。請查看 Hugging Face Visual Blocks 集合。
透過 Chrome 大規模使用 JavaScript 進行網路 AI
在先前的例子中 (例如 Gemma),模型會在網頁中載入及執行。Chrome 正在開發內建的裝置端 AI,讓您可以使用標準化、專屬於特定任務的 JavaScript API 存取模型。
除此之外,Chrome 也更新了 WebGPU,支援 16 位元浮點值。
WebAssembly 有新的提案 Memory64,可支援 64 位元記憶體索引,讓您載入比以往更大的 AI 模型。
開始使用無頭 Chrome 測試 Web AI 模型
您現在可以使用無頭 Chrome 測試用戶端 AI (或任何需要 WebGL 或 WebGPU 支援的應用程式),同時使用伺服器端 GPU 加速,例如 NVIDIA T4 或 P100。瞭解詳情:
請記得,分享您創作的內容時,請加上 #WebAI 標籤,讓更多社群成員看到您的作品。在 X、LinkedIn 或你偏好的社群平台上分享你的發現和建議。