Pouvez-vous créer des évaluations d'IA ? | AI on Chrome

Pourquoi l'intuition ne suffit-elle pas à mesurer la qualité des applications basées sur des LLM ?

Parce que les LLM sont probabilistes et que la qualité est souvent subjective.

En effet, les LLM sont généralement trop lents pour être testés dans un environnement de développement standard.

En effet, les LLM sont déterministes, ce qui signifie que la même entrée aboutit toujours à la même sortie.

En effet, les LLM modernes ont un taux d'erreur nul, ce qui rend les mesures redondantes.

Laquelle des propositions suivantes est un exemple d'évaluation basée sur des règles pour l'application ThemeBuilder ?

Déterminer si un slogan est suffisamment accrocheur pour l'audience cible

Vérifiez que le rapport de contraste entre la couleur du texte et celle de l'arrière-plan est d'au moins 4.5:1.

Évaluer si une palette de couleurs est psychologiquement appropriée pour un dentiste haut de gamme.

Vérification de la correspondance entre la devise générée et le ton inspirant demandé par l'utilisateur.

Quel est l'objectif principal de l'utilisation de l'évaluation par paire au lieu de l'évaluation par point ?

Pour réduire le coût des appels d'API en testant deux entrées à la fois.

Pour évaluer les contraintes binaires telles que le format JSON.

Pour s'assurer que le juge LLM n'attribue jamais le libellé ÉCHEC à une sortie.

Pour permettre au juge de choisir un gagnant entre deux sorties, ce qui est souvent plus cohérent que d'attribuer une note absolue.

Lorsque vous configurez un modèle de juge, pourquoi devez-vous définir la température sur `0` ?

Pour plus d'informations, afin de permettre au juge de générer des justifications plus longues et détaillées.

Pour le coût, afin de rendre le juge moins cher en utilisant moins de jetons.

Pour assurer la cohérence, afin que le juge fournisse la même réponse pour la même entrée à chaque fois.

Pour maximiser la créativité des critiques du juge.

Qu'est-ce que le surapprentissage dans votre pipeline d'évaluation ?

Lorsque la requête est modifiée pour transmettre un certain alignement et ne parvient pas à se généraliser à de nouvelles données invisibles.

Lorsque le juge est trop lent pour s'exécuter dans CI/CD.

Lorsque vous utilisez à la fois des tests basés sur des règles et des évaluations de l'IA.

Lorsque le juge est configuré avec une température trop basse ou d'autres paramètres trop élevés.

À quoi sert la technique de bootstrapping ?

Pour rééchantillonner aléatoirement l'ensemble de données d'alignement afin de vérifier la sensibilité du score du juge.

Générer un grand volume d'entrées utilisateur synthétiques à l'aide d'un modèle plus petit.

Pour corriger automatiquement les erreurs dans le code de l'application.

Implémenter un schéma JSON pour toutes les entrées et sorties des juges.

Quelle métrique est utilisée pour mesurer l'accord au-delà du hasard entre des experts humains ou entre un juge et un humain ?

Exactitude

Précision

Score Kappa

Score F₁

Lors de l'évaluation de la toxicité, pourquoi privilégier le rappel plutôt que la précision ?

En effet, les résultats toxiques sont la classe négative dans ce contexte spécifique.

Il est plus important d'identifier toutes les sorties toxiques, même si certaines sont des faux positifs, que de passer à côté de sorties toxiques (faux négatifs).

En effet, une précision élevée garantit que le juge n'est jamais trop strict.

Étant donné que le rappel coûte moins de jetons d'API, vous pouvez effectuer plus d'évaluations.

Qu'est-ce que le modèle de grille d'évaluation dynamique ?

Système dans lequel des évaluateurs humains notent manuellement chaque résultat de production.

Un prompt qui modifie les variables aléatoires à chaque exécution.

Utilisation d'un modèle distinct pour réécrire la requête de l'utilisateur avant qu'elle ne parvienne au juge.

Transmettre une chaîne décrivant le comportement exact ou le cas limite que le juge doit rechercher dans un échantillon spécifique.