Kiến thức bạn sẽ học được

Những điều bạn có thể mong đợi ở loạt video này và những điều bạn cần biết trước khi bắt đầu.

Trong loạt bài này, bạn sẽ tạo các bản đánh giá (eval) cho ứng dụng mẫu của chúng tôi, ThemeBuilder. Bạn sẽ tìm hiểu cách:

  • Xây dựng một quy trình làm việc đánh giá toàn diện và mạnh mẽ để bạn tin tưởng rằng mình có thể cung cấp cho người dùng.
  • Sử dụng mẫu LLM-as-a-judge để đo lường chất lượng chủ quan. Tạo một trình đánh giá với chế độ thiết lập tối thiểu hoặc sử dụng các kỹ thuật nâng cao để phát triển một trình đánh giá tuỳ chỉnh có tư duy như các chuyên gia hàng đầu trong lĩnh vực.
  • Tự động hoá quy trình của bạn bằng cách chạy các quy trình đánh giá tại thời điểm xây dựng (CI/CD) và trong quá trình sản xuất để phát hiện sớm các lỗi hồi quy.
  • Áp dụng các kỹ thuật giúp bạn có được độ tin cậy thống kê và chứng minh rằng kết quả của bạn không chỉ là một kết quả ngẫu nhiên trong nhóm thử nghiệm, đồng thời tối ưu hoá thiết kế đánh giá để phát hiện các hồi quy ngầm.
  • Sử dụng evals để chọn mô hình phù hợp nhất cho trường hợp sử dụng của bạn.

Phương pháp

Hãy xem loạt video này là điểm xuất phát của bạn. Bạn có thể xây dựng toàn bộ quy trình đánh giá chỉ bằng hướng dẫn chính (dựa trên các phương pháp hay tiêu chuẩn của ngành) và khám phá các kỹ thuật nâng cao hơn khi sẵn sàng nâng cấp.

Cho dù bạn sử dụng một nền tảng đánh giá có sẵn hay tự xây dựng nền tảng của riêng mình, thì các khái niệm và kỹ thuật mà bạn sẽ học được đều không phụ thuộc vào công cụ. Việc hiểu rõ lý do đằng sau những điều này sẽ giúp bạn tránh được những cạm bẫy thường gặp và phát triển một quy trình đánh giá chuyên nghiệp, bất kể bạn chọn ngăn xếp nào.

Sau khi hoàn tất, bạn sẽ biết cách lặp lại lời nhắc, nâng cấp LLM hoặc chuyển đổi LLM trong khi tự tin phát hành cho người dùng.

Điều kiện tiên quyết

Bạn nên có kinh nghiệm xây dựng bằng LLM. Chúng tôi giả định rằng bạn đã quen với: