过去一年,Web AI 发生了很多变化。您可能错过了,我们在 2024 年 I/O 大会上发表了一场演讲,讨论您的下一个 Web 应用要采用的新模型、工具和 API。
Web AI 是一组技术和技术,旨在通过设备 CPU 或 GPU 上运行的网络浏览器在客户端使用机器学习模型 (ML) 模型。这可以使用 JavaScript 和其他 Web 技术(如 WebAssembly 和 WebGPU)进行构建。这与服务器端 AI 或“Cloud AI”不同,在服务器端 AI 中,模型在服务器上执行并通过 API 访问。
在本次讲座中,我们分享了以下内容:
- 如何在浏览器中运行新的大语言模型 (LLM),以及在客户端运行模型的影响;
- 展望 Visual Blocks 的未来,以便更快地进行原型设计;
- 以及 Web 开发者如何在 Chrome 中使用 JavaScript 大规模运用 Web AI。
浏览器中的 LLM
Gemma Web 是 Google 推出的一款新型开放模型,可在用户设备上的浏览器中运行,其构建基础与我们在开发 Gemini 时使用的研究和技术相同。
与在云服务器上运行推断来相比,在设备端部署 LLM 可以显著节省成本,还能增强用户隐私保护并缩短延迟时间。浏览器中的生成式 AI 仍处于早期阶段,但随着硬件的不断改进(CPU 和 GPU RAM 越来越高),我们预计会有更多模型推出。
企业可以重新构想在网页上可以执行的操作,尤其是针对特定任务的用例。在消费类硬件上,小型 LLM(20 到 80 亿个参数)的权重可以微调。
Gemma 2B 支持通过 Kaggle Models 下载,其格式与我们的 Web LLM 推理 API 兼容。其他受支持的架构包括 Microsoft Phi-2、Falcon RW 1B 和 Stable LM 3B,您可以使用我们的转换器库将其转换为运行时可以使用的格式。
使用 Visual Blocks 构建更快的原型
我们的正与 Hugging Face 合作,为 Visual Blocks 创建了 16 个全新的自定义节点。这使得 Transformers.js 和更广泛的 Hugging Face 生态系统进入了 Visual Blocks。
在这些新节点中,有 8 个完全在客户端运行,使用 Web AI,包括:
此外,Hugging Face 还提供七项服务器端机器学习任务,允许您使用 Visual Blocks 中的 API 运行数千个模型。请查看 Hugging Face Visual Blocks 集合。
在 Chrome 中大规模使用用于 Web AI 的 JavaScript
在之前的实例中(例如使用 Gemma 时),模型在网页内加载并运行。Chrome 正致力于内置设备端 AI,让你可以使用针对特定任务的标准化 JavaScript API 访问模型。
不止如此。Chrome 还更新了 WebGPU,以支持 16 位浮点值。
WebAssembly 新增了支持 64 位内存索引的 Memory64 方案,可让您加载比以前更大的 AI 模型。
开始使用无头 Chrome 测试 Web AI 模型
您现在可以使用 Headless Chrome 来测试客户端 AI(或者任何需要 WebGL 或 WebGPU 支持的应用),同时利用服务器端 GPU 进行加速(例如 NVIDIA T4 或 P100)。了解详情:
请记住,在分享您创作的内容时,请添加 #WebAI,以便更广泛的社区可以看到您的作品。在 X、LinkedIn 或您喜欢的社交平台上分享您的发现和建议。