发布时间:2024 年 5 月 14 日;上次更新时间:2024 年 10 月 16 日
在 Web 上使用 AI 模型构建功能时,我们通常会依赖服务器端解决方案来处理较大的模型。对于生成式 AI 来说,这一点尤为重要,因为即使是最小的模型也比网页平均大小大约 1,000 倍。其他 AI 用例也是如此,其中模型的大小可能在几十兆到几百兆字节之间。由于这些模型不会在网站之间共享,因此每个网站都必须在网页加载时下载它们。这对开发者和用户而言并不实用。
我们正在开发 Web 平台 API 和浏览器功能,旨在将 AI 模型(包括大语言模型 [LLM])直接集成到浏览器中。其中包括 Gemini Nano,它是 Gemini 系列 LLM 的最高效版本,专为在大多数新型桌面设备和笔记本电脑上本地运行而设计。借助内置 AI,您的网站或 Web 应用无需部署或管理自己的 AI 模型,即可执行 AI 赋能的任务。
了解内置 AI 的优势、我们的实施计划,以及如何利用这项技术。
抢先试用
我们需要您的反馈来塑造 API,确保它们能够满足您的用例,并为我们与其他浏览器供应商就标准化事宜进行讨论提供参考。
加入我们的抢先体验计划,针对处于早期阶段的内置 AI 创意提供反馈,并发现通过本地原型设计测试正在开发的 API 的机会。
加入 Chrome AI 开发者公告群组,以便在新 API 推出时收到通知。
内置 AI 为 Web 开发者带来的好处
借助内置 AI,您的浏览器可提供和管理基础模型和专家模型。
与自行构建客户端 AI 相比,内置 AI 具有以下优势:
- 部署简单:在分发模型时,浏览器会考虑设备的功能并管理模型的更新。这意味着,您无需负责通过网络下载或更新大型模型。您无需解决存储空间驱逐、运行时内存预算、提取费用和其他问题。
- 使用硬件加速:浏览器的 AI 运行时经过优化,可充分利用可用硬件(无论是 GPU、NPU 还是回退到 CPU)。因此,您的应用可以在每部设备上实现最佳性能。
运行客户端的好处
借助内置 AI 方法,在客户端执行 AI 任务变得轻而易举,这反过来又带来了以下优势:
- 在本地处理敏感数据:客户端 AI 可以改善您的隐私保护状况。例如,如果您处理敏感数据,则可以通过端到端加密向用户提供 AI 功能。
- 流畅的用户体验:在某些情况下,取消对服务器的往返意味着您可以提供近乎即时的结果。客户端 AI 可以决定一项功能是否可行,以及用户体验是否理想。
- 更广泛地使用 AI:用户设备可以承担部分处理负载,从而获得对更多功能的访问权限。例如,如果您提供高级 AI 功能,则可以使用客户端 AI 预览这些功能,让潜在客户能够了解您产品的优势,而您无需额外付费。这种混合方法还可以帮助您管理推理费用,尤其是在常用用户流中。
- 离线 AI 使用:即使在没有互联网连接的情况下,您的用户也可以使用 AI 功能。这意味着,您的网站和 Web 应用可以在离线状态下或在网络连接不稳定的情况下正常运行。
混合 AI:客户端和服务器端
虽然客户端 AI 可以处理各种各样的用例,但某些用例需要服务器端支持。
服务器端 AI 非常适合大型模型,并且可以支持更多平台和设备。
您可以考虑采用混合方法,具体取决于:
- 复杂性:借助设备端 AI,更容易支持特定且易于上手的用例。对于复杂用例,请考虑服务器端实现。
- 弹性:默认使用服务器端,当设备离线或连接不稳定时使用设备端。
- 妥善回退:采用内置 AI 的浏览器需要时间,部分模型可能无法使用,并且旧款或性能较低的设备可能不符合运行所有模型的最佳硬件要求。为这些用户提供服务器端 AI。
对于 Gemini 模型,您可以使用后端集成(使用 Python、Go、Node.js 或 REST),也可以使用新的 适用于 Web 的 Google AI 客户端 SDK 在 Web 应用中实现。
浏览器架构和 API
为了支持 Chrome 中的内置 AI,我们创建了基础架构,以便访问基础模型和专家模型以在设备端执行。此基础架构已经在为帮我写等创新的浏览器功能提供支持。
您可以主要通过任务 API(例如 Translator API 或 Summarizer API)来访问内置 AI 功能。任务 API 旨在针对分配的最佳模型运行推理。
在 Chrome 中,这些 API 旨在通过微调或专家模型针对 Gemini Nano 运行推断。Gemini Nano 专为在大多数新型设备上本地运行而设计,最适合语言相关用例,例如摘要、重述或分类。
我们还提供了探索性 API,例如 Prompt API,以便您在本地进行实验并分享更多使用场景。
将来,我们可能会提供一个探索性 LoRA API,以通过调整模型的权重来提升内置模型的性能。
何时使用内置 AI
下面列举了内置 AI 技术可为您和您的用户带来哪些好处:
- AI 赋能的内容消费:包括总结、翻译、分类、描述以及知识提供方。
- AI 赋能的创作内容:例如写作辅助、校对、语法纠正和重写。
后续步骤
Language Detector API 现已在源代码试用版中推出,供您进一步测试。
如需了解如何在 Google 服务器上将 Gemini Pro 与您的网站和 Web 应用搭配使用,请参阅 Google AI JavaScript SDK 快速入门。