À quoi vous attendre de cette série et ce que vous devez savoir avant de commencer
Dans cette série, vous allez créer des évaluations pour notre exemple d'application, ThemeBuilder. Vous allez apprendre à effectuer les opérations suivantes :
- Créer un workflow d'évaluation de bout en bout robuste pour pouvoir déployer votre application auprès de vos utilisateurs en toute confiance.
- Utiliser le modèle LLM en tant que juge pour mesurer la qualité subjective. Créer un juge avec une configuration minimale ou utiliser des techniques avancées pour développer un juge personnalisé qui pense comme les meilleurs experts du domaine.
- Automatiser votre pipeline en exécutant des évaluations au moment de la compilation (CI/CD) et en production pour détecter les régressions de manière précoce.
- Appliquer des techniques qui vous donnent une confiance statistique et prouvent que vos résultats ne sont pas simplement le fruit du hasard dans votre pool de tests, et optimiser la conception de vos évaluations pour détecter les régressions furtives.
- Utiliser des évaluations pour sélectionner le meilleur modèle pour votre cas d'utilisation.
Méthode
Considérez cette série comme votre point de départ. Vous pouvez créer votre pipeline d'évaluation complet en suivant uniquement les conseils principaux, que nous avons basés sur les bonnes pratiques standards du secteur. Vous pourrez ensuite explorer des techniques plus avancées lorsque vous serez prêt à passer au niveau supérieur.
Que vous utilisiez une plate-forme d'évaluation prête à l'emploi ou que vous créiez la vôtre, les concepts et les techniques que vous apprendrez sont indépendants des outils. Comprendre pourquoi ils sont importants vous aidera à éviter les pièges courants et à développer un pipeline d'évaluation expert, quelle que soit la pile que vous choisissez.
Une fois la série terminée, vous saurez comment itérer sur votre prompt, mettre à niveau votre LLM ou changer de LLM tout en déployant votre application auprès de vos utilisateurs en toute confiance.
Prérequis
Vous devez avoir une certaine expérience de la création avec des LLM. Nous partons du principe que vous êtes déjà à l'aise avec les éléments suivants :
- Principes de base des LLM : moteurs déterministes par rapport aux moteurs probabilistes, hallucinations, sorties structurées, température.
- Techniques de prompt engineering.
- Principes de base de l'IA générative : fournisseurs de modèles, plates-formes, benchmarks, et classements.