Niet-uitputtende lijst van bronnen die in deze cursus zijn gebruikt en evaluatietools die u kunnen helpen.
Voor meer informatie over testen en AI raden we de volgende bronnen aan.
- Leer testen : vernieuw je testaanpak.
- Leer AI : ontwerp AI-systemen voor uw websites en webapplicaties.
- Google DeepMind Evaluations : Meerdere gestandaardiseerde benchmarktools voor verschillende soorten modellen.
- Gemini Evaluations Playbook : Recepten voor het experimenteren met en evalueren van generatieve AI-modellen met Vertex AI.
- Toolkit voor verantwoorde AI : Evalueer modellen en systemen op veiligheid.
- Je eigen evaluaties evalueren : een meta-les over hoe je kunt begrijpen welke evaluaties je moet gebruiken en wat effectief werkt.
- Betere AI-benchmarks ontwikkelen: hoeveel beoordelaars zijn voldoende? Begrijp een evaluatiekader voor machine learning-modellen dat de afweging tussen het aantal items en het aantal beoordelaars per item optimaliseert, om reproduceerbare AI-benchmarks te creëren.
Cursusbronnen
Voor het schrijven van deze serie hebben we gebruikgemaakt van verschillende bronnen, waaronder:
- AI-engineering: Toepassingen bouwen met basismodellen, Chip Huyen
- Het risico van QA voor LLM-applicaties verlagen door Michael Hablich, Chrome DevTools
- LLM als rechter gebruiken voor evaluatie: een complete handleiding door Hamel Husain
Evaluatietools
Voorbeelden van evaluatieoplossingen en -instrumenten zijn:
- AlignEval
- Sta op
- Braintrust
- Datadog
- DeepEval
- Gen AI-evaluatieservice en API
- Inspectie-evaluaties
- RechterLM
- LangSmith
- Evaluatieharnas
- OpenEvals
Er zijn nog veel meer evaluatietools beschikbaar. Als u andere tools gebruikt, deel ze dan met ons .