Kun je AI-evaluaties maken? | AI on Chrome

Waarom is intuïtie een onvoldoende maatstaf voor de kwaliteit van LLM-gebaseerde sollicitaties?

Omdat LLM's probabilistisch zijn en kwaliteit vaak subjectief is.

Omdat LLM's over het algemeen te traag zijn om in een standaard ontwikkelomgeving te testen.

Omdat LLM's deterministisch zijn, wat betekent dat dezelfde invoer altijd tot dezelfde uitvoer leidt.

Omdat moderne LLM's geen foutenmarge hebben, zijn metingen overbodig.

Welke van de volgende opties is een voorbeeld van een op regels gebaseerde evaluatie voor de ThemeBuilder-applicatie?

Bepalen of een motto pakkend genoeg is voor de doelgroep.

Controleer of de contrastverhouding tussen de tekstkleur en de achtergrondkleur minimaal 4,5:1 is.

Het beoordelen of een kleurenpalet psychologisch geschikt is voor een tandarts in het hogere segment.

Controleren of het gegenereerde motto overeenkomt met de inspirerende toon die de gebruiker heeft aangevraagd.

Wat is het voornaamste doel van paarsgewijze evaluatie in plaats van puntsgewijze evaluatie?

Om de kosten van API-aanroepen te verlagen door twee invoerwaarden tegelijk te testen.

Om binaire beperkingen zoals JSON-opmaak te evalueren.

Om ervoor te zorgen dat de LLM-jury nooit een onvoldoende (FAIL) label aan een output toekent.

Om de jury de mogelijkheid te geven een winnaar te kiezen uit twee inzendingen, wat vaak consistenter is dan het geven van een absoluut cijfer.

Waarom zou je de temperatuur op `0` zetten bij het configureren van een rechtermodel?

Voor meer informatie, zodat de rechter een uitgebreidere en gedetailleerdere toelichting kan geven.

Om de kosten te drukken, moet de rechter goedkoper worden door minder tokens te gebruiken.

Omwille van de consistentie geeft de rechter bij dezelfde invoer telkens hetzelfde antwoord.

Om de creativiteit van de juryleden bij hun beoordelingen te maximaliseren.

Wat betekent overfitting in je evaluatieproces?

Wanneer de prompt wordt aangepast om een bepaalde uitlijning te accepteren en vervolgens niet generaliseert naar nieuwe, onbekende gegevens.

Wanneer de rechter te traag is om CI/CD uit te voeren.

Wanneer je zowel op regels gebaseerde tests als AI-evaluaties gebruikt.

Wanneer de meetapparatuur is geconfigureerd met een te lage temperatuur of andere instellingen die te hoog zijn.

Waarvoor wordt de bootstrapping-techniek gebruikt?

Om de uitlijningsdataset willekeurig opnieuw te bemonsteren en te controleren hoe gevoelig de score van de beoordelaar is.

Om een grote hoeveelheid synthetische gebruikersinvoer te genereren met behulp van een kleiner model.

Om automatisch fouten in de applicatiecode te herstellen.

Een JSON-schema implementeren voor alle invoer- en uitvoergegevens van de juryleden.

Welke maatstaf wordt gebruikt om 'overeenstemming die verder gaat dan toeval' te meten tussen menselijke deskundigen of tussen een rechter en een mens?

Nauwkeurigheid

Precisie

Kappa-score

F ₁ score

Waarom wordt bij het beoordelen van toxiciteit de nadruk gelegd op terugroepingsinformatie in plaats van op precisie?

Omdat giftige stoffen in deze specifieke context als negatief worden beschouwd.

Omdat het belangrijker is om alle toxische resultaten te identificeren, zelfs als sommige vals positief zijn, dan om toxische resultaten te missen (vals negatief).

Omdat hoge precisie ervoor zorgt dat de rechter nooit te streng is.

Omdat een recall minder API-tokens kost, kun je de evaluatie vaker uitvoeren.

Wat is het dynamische beoordelingsschema?

Een systeem waarbij menselijke beoordelaars elk productresultaat handmatig beoordelen.

Een prompt die bij elke uitvoering willekeurige variabelen wijzigt.

Een apart model gebruiken om de prompt van de gebruiker te herschrijven voordat deze de rechter bereikt.

Een tekenreeks doorgeven die het exacte gedrag of het uitzonderlijke geval beschrijft waarnaar de beoordelaar in een specifiek voorbeeld moet zoeken.