AI 평가에 관한 과정을 모두 마쳤습니다. 기존 웹 테스트 지식을 LLM의 세계에 매핑하고, 규칙 기반 단위 테스트를 만들고, 심판 모델을 빌드 및 테스트하고, 테스트 파이프라인을 연결했습니다.
업계에서는 분위기와 LLM 비결정론에 대해 우려하고 있습니다. 실제로 브라우저, 기기, 화면 크기 전반에서 완벽하게 작동해야 하는 웹 앱을 빌드한 적이 있다면 이 문제를 해결할 준비가 된 것입니다. 하나의 입력으로 여러 가지 동작이 가능하고, 완전히 제어할 수 없는 환경, 악명 높은 '내 컴퓨터에서는 작동함'이 있습니다.
해결책은 테스트입니다. 평가는 AI 기능에 관한 테스트입니다. 웹 테스트를 통해 다양한 브라우저 환경에서 제공할 수 있었고, 평가는 AI 기능에 동일한 작업을 실행합니다. 평가를 빌드하고 제공하세요.
시작하기 전에 잠시 시간을 내어 몇 가지 주요 질문을 해 보세요. 출력을 '나쁘게' 만드는 것은 무엇인가요? 실패 사례를 정의합니다. 데이터를 자세히 파악하고 도메인 전문가와 긴밀하게 협력합니다. 출력을 '좋게' 만드는 것과 '이상적으로' 만드는 것은 무엇인가요? 모델에 등급을 매기도록 요청하기 전에 기대치를 명확하게 정의합니다. 평가를 얼마나 자주 실행하나요? 평가 기반 개발은 취할 수 있는 한 가지 접근 방식이지만, 애플리케이션이 배포된 후 평가할 빈도에 관한 기대치를 설정합니다.
AI 공간은 빠르게 움직이며 전체 파이프라인을 빌드하는 것은 부담스러울 수 있습니다. 작게 시작하세요. 규칙 기반 테스트를 하나 작성하고 기본 LLM 심판을 하나 빌드합니다. 기준을 설정하면 추측을 중단하고 엔지니어로서의 권한을 되찾을 수 있습니다. 재미있는 내부 프로토타입에서 테스트, 측정, 자신 있게 제공할 수 있는 강력한 기능으로 격차를 해소합니다. 사람이 빌드한 평가는 인간의 결함에 영향을 받는다는 점을 기억하세요. 편향이 내장되어 있습니다. 모델 및 평가에 대한 정기 감사를 배포하여 편향을 해결합니다.
이 과정을 따라 첫 번째 테스트를 빌드하고, 컴패니언 코드를 확인하고, 테스트를 시작하세요. 학습한 내용 공유하기: 평가를 어떻게 실행하나요? @ChromiumDev로 문의하거나, BlueSky에서 공유하거나, Web.dev AI팀과 일대일 사무실 시간을 설정하세요.