Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

总结

Maud Nalpas

Alexandra Klepper

您已完成有关 AI 评估的课程。您已将现有的 Web 测试知识映射到大语言模型世界，创建了基于规则的单元测试，构建并测试了判断模型，并连接了测试流水线。

我们的行业关注氛围和 LLM 非确定性。实际上，如果您曾经构建过需要在各种浏览器、设备和屏幕尺寸上完美运行的 Web 应用，那么您已经为此做好了准备。一个输入导致多种可能的行为、您无法完全控制的环境，以及臭名昭著的“在我的机器上运行正常”。

解决方案是测试。评估正是如此：针对 AI 功能的测试。Web 测试让您有信心在各种浏览器环境中发布，而评估则为您的 AI 功能提供同样的功能。构建评估，然后发布！

在深入了解之前，请花点时间问自己几个关键问题：什么导致输出“不良”？定义失败情况。深入了解您的数据，并与领域专家密切合作。什么导致输出“良好”而非“理想”？在要求模型对其进行评分之前，请明确定义您的预期。您多久运行一次评估？评估驱动型开发是您可以采用的一种方法，但请为应用部署后评估的频率设定预期。

AI 领域发展迅速，构建完整的流水线可能会让人感到不知所措。从小处着手：编写一个基于规则的测试，并构建一个基本的 LLM 判断。建立基准后，您就不再猜测，并重新获得工程师的权力。您跨越了从有趣的内部原型到强大的功能的差距，您可以自信地测试、衡量和发布该功能。请记住，由人类构建的评估会受到人类缺陷的影响。偏见是内置的。部署对模型和评估的定期审核，以解决偏见问题。

按照本课程构建您的第一个测试，查看配套代码，然后开始测试。分享您所学到的知识：您是如何运行评估的？请通过 @ChromiumDev 与我们联系，在 BlueSky 上与我们分享，或与 Web.dev AI Team 安排一对一的办公时间。

打造专家级评判员

课程资源

总结 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

总结