Fazit

Sie haben das Ende unseres Kurses zu KI-Bewertungen erreicht. Sie haben Ihr vorhandenes Wissen über Webtests auf die Welt der LLMs übertragen, regelbasierte Unittests erstellt, Ihr Judge-Modell entwickelt und getestet und Ihre Testpipeline eingerichtet.

In unserer Branche sind wir besorgt über die Stimmung und die Nichtdeterministik von LLMs. Wenn Sie schon einmal eine Web-App entwickelt haben, die in allen Browsern, auf allen Geräten und bei allen Bildschirmgrößen einwandfrei funktionieren muss, sind Sie darauf vorbereitet. Eine Eingabe führt zu mehreren möglichen Verhaltensweisen, die Umgebung lässt sich nicht vollständig kontrollieren und es gibt das berüchtigte „Funktioniert auf meinem Computer“.

Die Lösung wird getestet. Evals sind genau das: Tests für Ihre KI-Funktionen. Mit Ihren Webtests konnten Sie Ihre Produkte in verschiedenen Browserumgebungen bereitstellen. Mit Evals können Sie dasselbe für Ihre KI-Funktionen tun. Erstellen Sie Ihre Tests und legen Sie los!

Bevor Sie loslegen, sollten Sie sich einige wichtige Fragen stellen: Was macht ein Ergebnis „schlecht“? Definieren Sie Ihre Fehlerfälle. Machen Sie sich mit Ihren Daten vertraut und arbeiten Sie eng mit Fachexperten zusammen. Was macht eine Ausgabe „gut“ im Gegensatz zu „ideal“? Definieren Sie Ihre Erwartungen klar, bevor Sie ein Modell bitten, sie zu bewerten. Wie oft führen Sie Auswertungen durch? Evaluierungsgesteuerte Entwicklung ist ein möglicher Ansatz. Legen Sie jedoch fest, wie oft Sie nach der Bereitstellung Ihrer Anwendung eine Evaluierung durchführen.

Die Entwicklung im Bereich KI schreitet rasend schnell voran und es kann schwierig sein, eine vollständige Pipeline zu erstellen. Fangen Sie klein an: Schreiben Sie einen regelbasierten Test und erstellen Sie einen einfachen LLM-Judge. Sobald Sie diese Basislinie festgelegt haben, müssen Sie nicht mehr raten und haben als Entwickler wieder die Kontrolle. Sie überbrücken die Lücke zwischen einem unterhaltsamen internen Prototyp und einem robusten Feature, das Sie mit Zuversicht testen, messen und veröffentlichen können. Denken Sie daran, dass von Menschen erstellte Evals menschlichen Fehlern unterliegen. Voreingenommenheit ist integriert: Führen Sie regelmäßige Prüfungen Ihrer Modelle und Bewertungen durch, um Bias zu erkennen und zu beheben.

In diesem Kurs erfahren Sie, wie Sie Ihre ersten Tests erstellen, den Begleitcode aufrufen und mit dem Testen beginnen. Teilen Sie uns mit, wie Sie Ihre Tests durchführen. Sie können uns unter @ChromiumDev kontaktieren, uns auf BlueSky schreiben oder eine Einzelsprechstunde mit dem Web.dev AI-Team vereinbaren.