Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

학습 내용

이 시리즈에서 다루는 내용과 시작하기 전에 알아야 할 사항

Maud Nalpas

이 시리즈에서는 예시 애플리케이션인 ThemeBuilder의 평가 (eval)를 빌드합니다. 다음 작업을 수행하는 방법을 배우게 됩니다.

사용자에게 제공할 수 있다고 확신할 수 있도록 강력한 엔드 투 엔드 평가 워크플로를 빌드합니다.
LLM을 평가 모델로 사용하는 패턴을 사용하여 주관적인 품질을 측정합니다. 최소한의 설정으로 평가 모델을 만들거나 고급 기법을 사용하여 최상위 도메인 전문가처럼 생각하는 커스텀 평가 모델을 개발합니다.
빌드 시간 (CI/CD) 및 프로덕션에서 평가를 실행하여 파이프라인을 자동화하고 회귀를 조기에 포착합니다.
통계적 신뢰도를 제공하고 결과가 테스트 풀에서 무작위로 추출된 것이 아님을 증명하는 기법을 적용하고 평가 디자인을 최적화하여 미묘한 회귀를 포착합니다.
평가를 사용하여 사용 사례에 가장 적합한 모델을 선택합니다.

접근 방식

이 시리즈를 시작점으로 생각하세요. 표준 업계 권장사항을 기반으로 한 기본 가이드만 사용하여 전체 평가 파이프라인을 빌드하고 수준을 높일 준비가 되면 고급 기법을 살펴볼 수 있습니다.

기성 평가 플랫폼을 사용하든 직접 빌드하든 배우게 될 개념과 기법은 도구에 구애받지 않습니다. 이러한 개념과 기법의 이유를 이해하면 선택한 스택과 관계없이 일반적인 함정을 피하고 전문가 평가 파이프라인을 개발하는 데 도움이 됩니다.

완료되면 프롬프트를 반복하거나, LLM을 업그레이드하거나, LLM을 전환하면서 사용자에게 자신 있게 제공하는 방법을 알게 됩니다.

LLM으로 빌드한 경험이 있어야 합니다. 다음 사항에 이미 익숙하다고 가정합니다.