本课程中使用的来源的非详尽列表,以及可帮助您的评估工具。
如需获取有关测试和 AI 的更多资源,建议您参阅以下资源。
- 学习测试:更新您的测试方法。
- 学习 AI:为您的网站和 Web 应用设计 AI 系统。
- Google DeepMind Evals: 适用于不同类型模型的多种标准化基准比较工具
- Gemini 评估实操指南: 使用 Vertex AI 试验和评估生成式 AI 模型的配方。
- Responsible AI 工具包:评估模型和系统的安全性。
- 评估评估:关于如何了解要使用哪些评估以及哪些评估效果良好的元课程。
- 构建更优质的 AI 基准:多少评分者才足够? 了解一种机器学习模型评估框架,该框架可优化商品数量与每个商品的标注者数量之间的权衡,以构建可重现的 AI 基准。
课程来源
我们在撰写本系列文章时参考了多个来源,包括:
- AI Engineering: Building Applications with Foundation Models,Chip Huyen
- Michael Hablich(Chrome 开发者工具)撰写的降低 LLM 赋能应用的 QA 风险
- Hamel Husain 撰写的使用 LLM 作为评估工具:完整指南
评估工具
评估解决方案和工具的示例包括:
- AlignEval
- Arize
- Braintrust
- Datadog
- DeepEval
- Gen AI Evaluation Service 和 API
- 检查评估
- JudgeLM
- LangSmith
- 评估框架
- OpenEvals
还有许多其他评估工具可供使用。如果您使用其他工具,请与我们分享。