本系列文章的预期内容,以及开始之前应了解的事项。
在本系列文章中,您将为我们的示例应用 ThemeBuilder 构建评估 (eval)。您将了解如何:
- 构建稳健的端到端评估工作流,以便您确信可以向用户发布。
- 使用 LLM 作为评判模式来衡量主观质量。通过最少的设置创建评判,或使用高级技术开发像顶级领域专家一样思考的自定义评判。
- 通过在构建时 (CI/CD) 和生产环境中运行评估来自动执行流水线,以便尽早发现回归。
- 应用可让您获得统计置信度的技术,并证明您的结果并非只是从测试池中随机抽取,并优化评估设计以发现隐蔽的回归。
- 使用评估为您的用例选择最佳模型。
方法
可以将本系列文章视为您的出发地。您只需使用主要指南即可构建完整的评估流水线,这些指南基于行业标准最佳实践,并且在您准备好升级时探索更高级的技术。
无论您是使用现成的评估平台还是自行构建,您将学习的概念和技术都与工具无关。了解其背后的原因有助于您避开常见的陷阱,并开发专家级评估流水线,无论您选择哪种技术栈。
完成后,您将知道如何在向用户发布时自信地迭代提示、升级 LLM 或切换 LLM。
前提条件
您应具有一定的 LLM 构建经验。我们假设您已熟悉以下内容: