Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Podsumowanie

Maud Nalpas

Alexandra Klepper

To już koniec naszego kursu na temat oceniania AI. Dopasowaliście swoją dotychczasową wiedzę na temat testowania stron internetowych do świata LLM-ów, utworzyliście testy jednostkowe oparte na regułach, zbudowaliście i przetestowaliście model oceniający oraz skonfigurowaliście potok testowy.

Nasza branża obawia się nastrojów i niedeterminizmu dużych modeli językowych. W rzeczywistości, jeśli kiedykolwiek udało Ci się stworzyć aplikację internetową, która musi działać bez zarzutu w różnych przeglądarkach, na różnych urządzeniach i w różnych rozmiarach ekranu, jesteś na to przygotowany. Jedno wejście prowadzące do wielu możliwych zachowań, środowisko, którego nie można w pełni kontrolować, i niesławne „Działa na moim komputerze”.

Rozwiązaniem jest testowanie. Oceny to właśnie to – testy funkcji AI. Testy internetowe dały Ci pewność, że możesz publikować w różnych środowiskach przeglądarek, a oceny robią to samo w przypadku funkcji AI. Twórz oceny i publikuj!

Zanim zaczniesz, poświęć chwilę na zadanie sobie kilku kluczowych pytań: co sprawia, że wynik jest „zły”? Zdefiniuj przypadki niepowodzenia. Dokładnie zapoznaj się z danymi i ściśle współpracuj z ekspertami w danej dziedzinie. Co sprawia, że wynik jest „dobry” w porównaniu z „idealnym”? Zanim poprosisz model o ocenę, jasno określ swoje oczekiwania. Jak często będziesz przeprowadzać oceny? Rozwój oparty na ocenie to jedno z podejść, które możesz zastosować, ale określ, jak często będziesz oceniać po wdrożeniu aplikacji.

W dziedzinie AI wszystko szybko się zmienia, a zbudowanie pełnego potoku może być przytłaczające. Zacznij od małego: napisz 1 test oparty na regułach i stwórz 1 podstawowy model oceniający. Gdy ustalisz ten punkt odniesienia, przestaniesz zgadywać i odzyskasz kontrolę jako inżynier. Przekształcisz zabawny prototyp wewnętrzny w solidną funkcję, którą możesz testować, mierzyć i publikować z pewnością. Pamiętaj, że oceny tworzone przez ludzi są podatne na ludzkie błędy. Obciążenie jest wbudowane. Aby wyeliminować obciążenie, wdrażaj regularne audyty modeli i ocen.

Aby utworzyć pierwsze testy, zapoznaj się z tym kursem i towarzyszącym mu kodem, a następnie zacznij testować. Podziel się tym, czego się nauczyłeś: jak przeprowadzasz oceny? Skontaktuj się z nami pod adresem @ChromiumDev, podziel się z nami na BlueSky lub umów się na indywidualne konsultacje z zespołem Web.dev AI Team.

Wstecz

Tworzenie eksperckiego sędziego

Dalej

Zasoby kursu

Podsumowanie Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

Podsumowanie