过去一年,Web AI 发生了许多变化。如果您错过了,我们在 2024 年 I/O 大会上就全新模型、工具和 API 为您打造下一代 Web 应用的主题进行了演讲。
Web AI 是一组技术和方法,可在设备的 CPU 或 GPU 上运行的网络浏览器中客户端使用机器学习 (ML) 模型。您可以使用 JavaScript 和其他 Web 技术(例如 WebAssembly 和 WebGPU)构建此类应用。这与服务器端 AI 或“Cloud AI”不同,后者是指模型在服务器上执行,并通过 API 进行访问。
在本次演讲中,我们分享了以下内容:
- 如何在浏览器中运行我们的新大语言模型 (LLM),以及在客户端运行模型的影响;
- 了解 Visual Blocks 的未来发展,以便更快地进行原型设计;
- 以及 Web 开发者如何在 Chrome 中使用 JavaScript 大规模处理 Web AI 内容。
在浏览器中运行 LLM
Gemma Web 是 Google 推出的一种新的开放式模型,可在用户设备上的浏览器中运行,采用了我们打造 Gemini 时所用的技术和研究成果。
与在云服务器上运行推理相比,在设备端部署 LLM 有很大的潜力来节省成本,同时还能增强用户隐私保护并缩短延迟时间。浏览器中的生成式 AI 仍处于早期阶段,但随着硬件不断改进(CPU 和 GPU RAM 越来越大),我们预计会有更多模型可供使用。
企业可以重新思考在网页上可以执行哪些操作,尤其是对于特定于任务的用例,在这些用例中,可以调整较小 LLM(20 亿到 80 亿个参数)的权重,以便在消费类硬件上运行。
Gemma 2B 可在 Kaggle 模型中下载,其格式与我们的 Web LLM Inference API 兼容。其他受支持的架构包括 Microsoft Phi-2、Falcon RW 1B 和 Stable LM 3B,您可以使用我们的转换器库将这些架构转换为运行时可以使用的格式。
使用 Visual Blocks 更快地构建原型
我们与 Hugging Face 合作,后者为 Visual Blocks 创建了 16 个全新的自定义节点。这为 Visual Blocks 带来了 Transformers.js 和更广泛的 Hugging Face 生态系统。
这些全新节点中,有 8 个通过 Web AI 完全在客户端运行,包括:
此外,Hugging Face 提供了七项服务器端机器学习任务,可让您在 Visual Blocks 中使用 API 运行数千个模型。查看 Hugging Face Visual Blocks 集合。
在 Chrome 中使用 JavaScript 大规模实现 Web AI
在之前的示例(例如 Gemma)中,模型是在网页本身中加载和运行的。Chrome 正在开发内置设备端 AI,您可以使用标准化的任务专用 JavaScript API 访问模型。
不仅如此,Chrome 还更新了 WebGPU,支持 16 位浮点值。
WebAssembly 提出了一项新提案 Memory64,用于支持 64 位内存索引,这让您可以加载比以前更大的 AI 模型。
开始使用无头 Chrome 测试 Web AI 模型
现在,您可以使用无头 Chrome 测试客户端 AI(或需要 WebGL 或 WebGPU 支持的任何应用),同时利用服务器端 GPU(例如 NVIDIA T4 或 P100)进行加速。了解详情:
请注意,分享您创作的内容时,请添加 #WebAI 标签,以便更广泛的社区可以看到您的作品。在 X、LinkedIn 或您偏好的社交平台上分享您的发现和建议。