您已完成有关 AI 评估的课程。您已将现有的 Web 测试知识映射到大语言模型世界,创建了基于规则的单元测试,构建并测试了判断模型,并连接了测试流水线。
我们的行业关注氛围和 LLM 非确定性。实际上,如果您曾经构建过需要在各种浏览器、设备和屏幕尺寸上完美运行的 Web 应用,那么您已经为此做好了准备。一个输入导致多种可能的行为、您无法完全控制的环境,以及臭名昭著的“在我的机器上运行正常”。
解决方案是测试。评估正是如此:针对 AI 功能的测试。Web 测试让您有信心在各种浏览器环境中发布,而评估则为您的 AI 功能提供同样的功能。构建评估,然后发布!
在深入了解之前,请花点时间问自己几个关键问题:什么导致输出“不良”?定义失败情况。深入了解您的数据,并与领域专家密切合作。 什么导致输出“良好”而非“理想”?在要求模型对其进行评分之前,请明确定义您的预期。 您多久运行一次评估?评估驱动型开发是您可以采用的一种方法,但请为应用部署后评估的频率设定预期。
AI 领域发展迅速,构建完整的流水线可能会让人感到不知所措。从小处着手:编写一个基于规则的测试,并构建一个基本的 LLM 判断。建立基准后,您就不再猜测,并重新获得工程师的权力。您跨越了从有趣的内部原型到强大的功能的差距,您可以自信地测试、衡量和发布该功能。 请记住,由人类构建的评估会受到人类缺陷的影响。偏见是内置的。部署对模型和评估的定期审核,以解决偏见问题。
按照本课程构建您的第一个测试,查看配套代码,然后开始测试。分享您所学到的知识:您是如何运行评估的?请通过 @ChromiumDev 与我们联系,在 BlueSky 上与我们分享,或与 Web.dev AI Team 安排一对一的办公时间。