このシリーズで取り上げる内容と、始める前に知っておくべきこと。
このシリーズでは、サンプル アプリケーション ThemeBuilder の評価(eval)を構築します。次の方法を学習します。
- ユーザーにリリースできると確信できる、堅牢なエンドツーエンドの評価ワークフローを構築します。
- LLM-as-a-Judge パターンを使用して、主観的な品質を測定します。最小限のセットアップでジャッジを作成することも、高度な手法を使用して、トップレベルのドメイン エキスパートのように考えるカスタム ジャッジを開発することもできます。
- ビルド時間(CI/CD)と本番環境で評価を実行してパイプラインを自動化し、回帰を早期に検出します。
- 統計的な信頼性を得て、結果がテスト プールからの単なるラッキー ドローではないことを証明する手法を適用し、評価設計を最適化して、こっそりとした回帰をキャッチします。
- 評価を使用して、ユースケースに最適なモデルを選択します。
アプローチ
このシリーズを出発地としてお考えください。業界の標準的なベスト プラクティスに基づいて作成されたメインのガイダンスのみを使用して、完全な評価パイプラインを構築できます。レベルアップの準備ができたら、より高度な手法を試すことができます。
既製の評価プラットフォームを使用する場合でも、独自のプラットフォームを構築する場合でも、ここで学ぶコンセプトと手法はツールに依存しません。その背後にある理由を理解することで、一般的な落とし穴を回避し、選択したスタックに関係なく、専門家による評価パイプラインを開発できます。
完了すると、プロンプトの反復処理、LLM のアップグレード、LLM の切り替えを自信を持ってユーザーに提供する方法を理解できます。
前提条件
LLM を使用した構築の経験が必要です。ここでは、次の内容をすでに理解していることを前提とします。