AI 평가를 만들 수 있나요? | AI on Chrome

직관이 LLM 기반 애플리케이션의 품질을 측정하는 데 불충분한 이유는 무엇인가요?

LLM은 확률적이며 품질은 주관적인 경우가 많기 때문입니다.

LLM은 일반적으로 표준 개발 환경에서 테스트하기에는 너무 느리기 때문입니다.

LLM은 결정론적이기 때문에 동일한 입력은 항상 동일한 출력을 생성합니다.

최신 LLM의 오류율은 0이므로 측정이 중복됩니다.

다음 중 ThemeBuilder 애플리케이션의 규칙 기반 평가의 예는 무엇인가요?

타겟층에 적합한 문구인지 판단

텍스트 색상과 배경색 간의 대비율이 4.5:1 이상인지 확인합니다.

고급 치과 의사에 심리적으로 적합한 색상 팔레트인지 평가

생성된 모토가 사용자가 요청한 고무적인 어조와 일치하는지 확인합니다.

점별 평가 대신 쌍별 평가를 사용하는 주요 목적은 무엇인가요?

두 입력을 한 번에 테스트하여 API 호출 비용을 줄입니다.

JSON 형식과 같은 이진 제약 조건을 평가합니다.

LLM 심사자가 출력에 FAIL 라벨을 할당하지 않도록 합니다.

심사위원이 두 출력 중에서 승자를 선택할 수 있도록 합니다. 이는 절대 등급을 부여하는 것보다 더 일관적인 경우가 많습니다.

평가 모델을 구성할 때 온도를 `0`으로 설정해야 하는 이유는 무엇인가요?

심판이 더 길고 자세한 근거를 생성할 수 있도록 합니다.

비용: 토큰을 더 적게 사용하여 평가 모델을 더 저렴하게 만듭니다.

일관성을 위해 심사자가 동일한 입력에 대해 매번 동일한 답변을 제공합니다.

심사위원의 비평의 창의성을 극대화하기 위해

평가 파이프라인에서 과적합이란 무엇인가요?

특정 정렬을 전달하도록 프롬프트가 수정되었지만 새롭고 보이지 않는 데이터로 일반화되지 않는 경우

심판이 CI/CD에서 너무 느리게 실행되는 경우

규칙 기반 테스트와 AI 평가를 모두 사용하는 경우

심판이 너무 낮은 온도 또는 너무 높은 기타 설정으로 구성된 경우

부트스트래핑 기법의 용도는 무엇인가요?

정렬 데이터 세트를 무작위로 다시 샘플링하여 심사위원 점수가 얼마나 민감한지 확인합니다.

더 작은 모델을 사용하여 대량의 합성 사용자 입력을 생성합니다.

애플리케이션 코드의 오류를 자동으로 수정합니다.

모든 심사위원 입력 및 출력에 JSON 스키마를 구현합니다.

인간 전문가 간 또는 심사위원과 인간 간의 '우연을 넘어서는 일치도'를 측정하는 데 사용되는 측정항목은 무엇인가요?

정확성

정밀도

카파 점수

F₁ 점수

악성 텍스트를 평가할 때 정밀도보다 재현율을 우선시하는 이유는 무엇인가요?

이 특정 맥락에서 유해한 출력은 음성 클래스이기 때문입니다.

유해한 출력을 놓치는 것 (거짓음성)보다 일부가 거짓양성이라도 모든 유해한 출력을 식별하는 것이 더 중요하기 때문입니다.

높은 정밀도는 심판이 너무 엄격하지 않도록 보장하기 때문입니다.

리콜은 API 토큰을 더 적게 사용하므로 더 많이 평가할 수 있습니다.

동적 루브릭 패턴이란 무엇인가요?

인간 평가자가 각 프로덕션 출력을 수동으로 평가하는 시스템입니다.

실행될 때마다 무작위 변수가 변경되는 프롬프트

심판에게 도달하기 전에 별도의 모델을 사용하여 사용자의 프롬프트를 다시 작성합니다.

심사위원이 특정 샘플에서 찾아야 하는 정확한 동작이나 특이 사례를 설명하는 문자열을 전달합니다.