Argomenti trattati

Cosa aspettarsi da questa serie e cosa sapere prima di iniziare.

In questa serie, creerai valutazioni (evals) per la nostra applicazione di esempio, ThemeBuilder. Al termine del corso sarai in grado di:

  • Creare un flusso di lavoro di valutazione end-to-end solido, in modo da poterlo distribuire agli utenti con la massima tranquillità.
  • Utilizzare il pattern LLM-as-a-judge per misurare la qualità soggettiva. Creare un giudice con una configurazione minima o utilizzare tecniche avanzate per sviluppare un giudice personalizzato che pensi come i migliori esperti di dominio.
  • Automatizzare la pipeline eseguendo le valutazioni in fase di tempo di compilazione (CI/CD) e in produzione, per rilevare le regressioni in anticipo.
  • Applicare tecniche che ti danno fiducia statistica e dimostrano che i risultati non sono solo un'estrazione fortunata dal pool di test e ottimizzare la progettazione delle valutazioni per rilevare regressioni nascoste.
  • Utilizzare le valutazioni per selezionare il modello migliore per il tuo caso d'uso.

Approccio

Considera questa serie come punto di partenza. Puoi creare la pipeline di valutazione completa utilizzando solo le indicazioni principali, basate sulle best practice standard del settore, ed esplorare tecniche più avanzate quando sei pronto per passare al livello successivo.

Indipendentemente dal fatto che utilizzi una piattaforma di valutazione predefinita o che ne crei una tua, i concetti e le tecniche che imparerai sono indipendenti dagli strumenti. Comprendere il motivo alla base di questi concetti ti aiuta a evitare le trappole comuni e a sviluppare una pipeline di valutazione esperta, indipendentemente dallo stack scelto.

Al termine, saprai come eseguire l'iterazione del prompt, eseguire l'upgrade dell'LLM o cambiare LLM durante la distribuzione agli utenti con la massima tranquillità.

Prerequisiti

Dovresti avere una certa esperienza nella creazione di LLM. Supponiamo che tu abbia già familiarità con: