이 시리즈에서 다루는 내용과 시작하기 전에 알아야 할 사항
이 시리즈에서는 예시 애플리케이션인 ThemeBuilder의 평가 (eval)를 빌드합니다. 다음 작업을 수행하는 방법을 배우게 됩니다.
- 사용자에게 제공할 수 있다고 확신할 수 있도록 강력한 엔드 투 엔드 평가 워크플로를 빌드합니다.
- LLM을 평가 모델로 사용하는 패턴을 사용하여 주관적인 품질을 측정합니다. 최소한의 설정으로 평가 모델을 만들거나 고급 기법을 사용하여 최상위 도메인 전문가처럼 생각하는 커스텀 평가 모델을 개발합니다.
- 빌드 시간 (CI/CD) 및 프로덕션에서 평가를 실행하여 파이프라인을 자동화하고 회귀를 조기에 포착합니다.
- 통계적 신뢰도를 제공하고 결과가 테스트 풀에서 무작위로 추출된 것이 아님을 증명하는 기법을 적용하고 평가 디자인을 최적화하여 미묘한 회귀를 포착합니다.
- 평가를 사용하여 사용 사례에 가장 적합한 모델을 선택합니다.
접근 방식
이 시리즈를 시작점으로 생각하세요. 표준 업계 권장사항을 기반으로 한 기본 가이드만 사용하여 전체 평가 파이프라인을 빌드하고 수준을 높일 준비가 되면 고급 기법을 살펴볼 수 있습니다.
기성 평가 플랫폼을 사용하든 직접 빌드하든 배우게 될 개념과 기법은 도구에 구애받지 않습니다. 이러한 개념과 기법의 이유를 이해하면 선택한 스택과 관계없이 일반적인 함정을 피하고 전문가 평가 파이프라인을 개발하는 데 도움이 됩니다.
완료되면 프롬프트를 반복하거나, LLM을 업그레이드하거나, LLM을 전환하면서 사용자에게 자신 있게 제공하는 방법을 알게 됩니다.
기본 요건
LLM으로 빌드한 경험이 있어야 합니다. 다음 사항에 이미 익숙하다고 가정합니다.