Hai raggiunto la fine del nostro corso sulle valutazioni dell'AI. Hai mappato le tue conoscenze esistenti sui test web nel mondo degli LLM, creato test delle unità basati su regole, creato e testato il tuo modello di valutazione e configurato la pipeline di test.
Il nostro settore è preoccupato per le vibrazioni e il non determinismo degli LLM. In realtà, se hai mai creato un'app web che deve funzionare perfettamente su browser, dispositivi e dimensioni dello schermo, sei pronto. Un input che porta a più comportamenti possibili, un ambiente che non puoi controllare completamente e il famigerato "Funziona sulla mia macchina".
La soluzione è il test. Le valutazioni sono proprio questo: test per le tue funzionalità di AI. I test web ti hanno dato la sicurezza di eseguire il deployment in ambienti browser selvaggi e le valutazioni fanno la stessa cosa per le tue funzionalità di AI. Crea le tue valutazioni e spediscile.
Prima di iniziare, poniti alcune domande chiave: Che cosa rende "negativo" un output? Definisci i casi di errore. Acquisisci familiarità con i tuoi dati e collabora a stretto contatto con gli esperti del settore. Cosa rende un output "buono" anziché "ideale"? Definisci chiaramente le tue aspettative prima di chiedere a un modello di valutarle. Con quale frequenza eseguirai le valutazioni? Lo sviluppo basato sulla valutazione è un approccio che puoi adottare, ma definisci le aspettative sulla frequenza con cui valuterai l'applicazione dopo il deployment.
Il settore dell'AI si muove rapidamente e la creazione di una pipeline completa può sembrare opprimente. Inizia in piccolo: scrivi un test basato su regole e crea un giudice LLM di base. Una volta stabilita questa base di riferimento, smetti di fare ipotesi e riacquisti il tuo potere in qualità di ingegnere. Colmi il divario tra un prototipo interno divertente e una funzionalità solida che puoi testare, misurare e distribuire con sicurezza. Ricorda che le valutazioni create da persone sono soggette a errori umani. Il bias è integrato. Esegui audit regolari dei tuoi modelli e delle tue valutazioni per affrontare il bias.
Segui questo corso per creare i tuoi primi test, consulta il codice di accompagnamento e inizia a testare. Condividi ciò che hai imparato: come esegui le valutazioni? Contattaci all'indirizzo @ChromiumDev, condividi le tue idee su BlueSky o prenota un incontro individuale con il team di Web.dev AI.