Czego się spodziewać po tej serii i co warto wiedzieć, zanim zaczniesz
W tej serii utworzysz oceny (evals) dla naszej przykładowej aplikacji ThemeBuilder. Dowiesz się, jak:
- zbudować solidny, kompleksowy proces oceny, aby mieć pewność, że możesz udostępnić aplikację użytkownikom;
- używać wzorca LLM jako sędziego do pomiaru subiektywnej jakości; utworzyć sędziego przy minimalnej konfiguracji lub użyć zaawansowanych technik, aby opracować niestandardowego sędziego, który myśli jak eksperci w danej dziedzinie;
- zautomatyzować potok, uruchamiając oceny w czasie kompilacji (CI/CD) i w środowisku produkcyjnym, aby wcześnie wykrywać regresje;
- stosować techniki, które zapewniają pewność statystyczną i dowodzą, że wyniki nie są przypadkowe, oraz optymalizować projekt ocen, aby wykrywać ukryte regresje;
- używać ocen do wybierania najlepszego modelu do danego zastosowania.
Podejście
Potraktuj tę serię jako punkt początkowy. Możesz zbudować pełny potok ocen, korzystając tylko z głównych wskazówek, które opierają się na standardowych sprawdzonych metodach, i poznać bardziej zaawansowane techniki, gdy będziesz gotowy na kolejny poziom.
Niezależnie od tego, czy używasz gotowej platformy ocen, czy tworzysz własną, koncepcje i techniki, których się nauczysz, są niezależne od narzędzi. Zrozumienie, dlaczego są one ważne, pomoże Ci uniknąć typowych pułapek i opracować potok ocen na poziomie eksperta, niezależnie od wybranego stosu technologicznego.
Po ukończeniu tej serii będziesz wiedzieć, jak iterować prompt, uaktualnić model LLM lub zmienić model LLM, jednocześnie udostępniając aplikację użytkownikom.
Wymagania wstępne
Powinieneś mieć pewne doświadczenie w tworzeniu aplikacji z użyciem modeli LLM. Zakładamy, że znasz już te zagadnienia:
- podstawy modeli LLM: determinizm a silniki prawdopodobieństwa, halucynacje, uporządkowane dane wyjściowe, temperatura;
- techniki tworzenia promptów;
- podstawy generatywnej AI: dostawcy modeli, platformy, testy porównawcze, i tabele wyników.