To już koniec naszego kursu na temat oceniania AI. Dopasowaliście swoją dotychczasową wiedzę na temat testowania stron internetowych do świata LLM-ów, utworzyliście testy jednostkowe oparte na regułach, zbudowaliście i przetestowaliście model oceniający oraz skonfigurowaliście potok testowy.
Nasza branża obawia się nastrojów i niedeterminizmu dużych modeli językowych. W rzeczywistości, jeśli kiedykolwiek udało Ci się stworzyć aplikację internetową, która musi działać bez zarzutu w różnych przeglądarkach, na różnych urządzeniach i w różnych rozmiarach ekranu, jesteś na to przygotowany. Jedno wejście prowadzące do wielu możliwych zachowań, środowisko, którego nie można w pełni kontrolować, i niesławne „Działa na moim komputerze”.
Rozwiązaniem jest testowanie. Oceny to właśnie to – testy funkcji AI. Testy internetowe dały Ci pewność, że możesz publikować w różnych środowiskach przeglądarek, a oceny robią to samo w przypadku funkcji AI. Twórz oceny i publikuj!
Zanim zaczniesz, poświęć chwilę na zadanie sobie kilku kluczowych pytań: co sprawia, że wynik jest „zły”? Zdefiniuj przypadki niepowodzenia. Dokładnie zapoznaj się z danymi i ściśle współpracuj z ekspertami w danej dziedzinie. Co sprawia, że wynik jest „dobry” w porównaniu z „idealnym”? Zanim poprosisz model o ocenę, jasno określ swoje oczekiwania. Jak często będziesz przeprowadzać oceny? Rozwój oparty na ocenie to jedno z podejść, które możesz zastosować, ale określ, jak często będziesz oceniać po wdrożeniu aplikacji.
W dziedzinie AI wszystko szybko się zmienia, a zbudowanie pełnego potoku może być przytłaczające. Zacznij od małego: napisz 1 test oparty na regułach i stwórz 1 podstawowy model oceniający. Gdy ustalisz ten punkt odniesienia, przestaniesz zgadywać i odzyskasz kontrolę jako inżynier. Przekształcisz zabawny prototyp wewnętrzny w solidną funkcję, którą możesz testować, mierzyć i publikować z pewnością. Pamiętaj, że oceny tworzone przez ludzi są podatne na ludzkie błędy. Obciążenie jest wbudowane. Aby wyeliminować obciążenie, wdrażaj regularne audyty modeli i ocen.
Aby utworzyć pierwsze testy, zapoznaj się z tym kursem i towarzyszącym mu kodem, a następnie zacznij testować. Podziel się tym, czego się nauczyłeś: jak przeprowadzasz oceny? Skontaktuj się z nami pod adresem @ChromiumDev, podziel się z nami na BlueSky lub umów się na indywidualne konsultacje z zespołem Web.dev AI Team.