Conclusion

Ce cours sur les évaluations de l'IA touche à sa fin. Vous avez transposé vos connaissances existantes en matière de tests Web au monde des LLM, créé des tests unitaires basés sur des règles, conçu et testé votre modèle de juge, et configuré votre pipeline de test.

Notre secteur s'inquiète des "vibes" et du non-déterminisme des LLM. En réalité, si vous avez déjà créé une application Web qui doit fonctionner parfaitement sur différents navigateurs, appareils et tailles d'écran, vous êtes prêt. Une entrée qui entraîne plusieurs comportements possibles, un environnement que vous ne pouvez pas contrôler entièrement et le fameux "Ça marche sur ma machine".

La solution est le test. Les évaluations sont exactement cela : des tests pour vos fonctionnalités d'IA. Vos tests Web vous ont donné l'assurance de pouvoir déployer votre application dans des environnements de navigateur variés, et les évaluations font la même chose pour vos fonctionnalités d'IA. Créez vos évaluations et déployez votre application !

Avant de vous lancer, prenez le temps de vous poser quelques questions clés : qu'est-ce qui rend un résultat "mauvais" ? Définissez vos cas d'échec. Familiarisez-vous avec vos données et collaborez étroitement avec des experts du domaine. Qu'est-ce qui fait qu'une sortie est "bonne" plutôt qu'"idéale" ? Définissez clairement vos attentes avant de demander à un modèle de les évaluer. À quelle fréquence exécuterez-vous des évaluations ? Le développement axé sur l'évaluation est une approche que vous pouvez adopter, mais définissez la fréquence à laquelle vous effectuerez des évaluations après le déploiement de votre application.

Le domaine de l'IA évolue rapidement, et la création d'un pipeline complet peut sembler insurmontable. Commencez petit : écrivez un test basé sur des règles et créez un juge LLM de base. Une fois que vous avez établi cette base de référence, vous n'avez plus besoin de deviner et vous retrouvez votre pouvoir en tant qu'ingénieur. Vous passez d'un prototype interne amusant à une fonctionnalité robuste que vous pouvez tester, mesurer et déployer en toute confiance. N'oubliez pas que les évaluations créées par des humains sont sujettes à des erreurs humaines. Les biais sont intégrés. Déployez des audits réguliers de vos modèles et évaluations pour résoudre les biais.

Suivez ce cours pour créer vos premiers tests, consultez le code associé et commencez à tester. Partagez ce que vous avez appris : comment exécutez-vous vos évaluations ? Contactez-nous sur @ChromiumDev, partagez vos commentaires sur BlueSky ou organisez une permanence individuelle avec l'équipe d'IA Web.dev.