本课程中使用的来源列表(并非详尽无遗)以及可帮助您的评估工具。
来源
我们在编写本系列文章时参考了多个来源,包括:
- AI Engineering: Building Applications with Foundation Models,Chip Huyen
- De-risking QA for LLM-powered applications - Michael Hablich,Chrome 开发者工具
- Using LLM-as-a-Judge For Evaluation: A Complete Guide - Hamel Husain
评估工具
评估解决方案和工具的示例包括:
- AlignEval
- Arize
- Braintrust
- Datadog
- DeepEval
- Gen AI Evaluation Service 和 API
- Inspect Evals
- JudgeLM
- LangSmith
- 评估框架
- OpenEvals
该列表并不详尽。如果您使用的是其他评估工具, 请与我们分享。