Was Sie von dieser Reihe erwarten können und was Sie wissen sollten, bevor Sie beginnen.
In dieser Reihe erstellen Sie Bewertungen (Evals) für unsere Beispielanwendung ThemeBuilder. Sie lernen, wie Sie Folgendes tun:
- Einen robusten End-to-End-Bewertungs-Workflow erstellen, damit Sie Ihre Anwendung Ihren Nutzern mit Zuversicht zur Verfügung stellen können.
- Das LLM-as-a-Judge-Muster verwenden, um die subjektive Qualität zu messen. Einen Judge mit minimaler Einrichtung erstellen oder erweiterte Techniken verwenden, um einen benutzerdefinierten Judge zu entwickeln, der wie Top-Domain-Experten denkt.
- Ihre Pipeline automatisieren, indem Sie Evals zur Build-Zeit (CI/CD) und in der Produktion ausführen, um Regressionen frühzeitig zu erkennen.
- Techniken anwenden, die Ihnen statistische Sicherheit geben und beweisen, dass Ihre Ergebnisse nicht nur ein Glücksfall aus Ihrem Testpool sind, und Ihr Evals-Design optimieren, um versteckte Regressionen zu erkennen.
- Evals verwenden, um das beste Modell für Ihren Anwendungsfall auszuwählen.
Ansatz
Diese Reihe ist Ihr Ausgangspunkt. Sie können Ihre vollständige Evals-Pipeline nur mit der Hauptanleitung erstellen, die auf den besten Branchenpraktiken basiert. Wenn Sie bereit sind, können Sie erweiterte Techniken ausprobieren.
Unabhängig davon, ob Sie eine vorgefertigte Evals-Plattform verwenden oder Ihre eigene erstellen, sind die Konzepte und Techniken, die Sie lernen, toolunabhängig. Wenn Sie die Gründe dafür verstehen, können Sie häufige Fehler vermeiden und eine professionelle Evals-Pipeline entwickeln, unabhängig davon, welchen Stack Sie wählen.
Nach Abschluss dieser Reihe wissen Sie, wie Sie Ihren Prompt iterieren, Ihr LLM aktualisieren oder Ihr LLM wechseln können, während Sie Ihre Anwendung Ihren Nutzern mit Zuversicht zur Verfügung stellen.
Vorbereitung
Sie sollten einige Erfahrung mit der Entwicklung mit LLMs haben. Wir gehen davon aus, dass Sie mit Folgendem vertraut sind:
- Grundlagen von LLMs: Determinismus im Vergleich zu Wahrscheinlichkeitsmodellen, Halluzinationen, strukturierte Ausgaben, Temperatur.
- Prompt-Engineering-Techniken.
- Grundlagen der generativen KI: Modellanbieter, Plattformen, Benchmarks, und Bestenlisten.