Yang akan Anda pelajari

Apa yang dapat Anda harapkan dari seri ini, dan apa yang harus Anda ketahui sebelum memulai.

Dalam seri ini, Anda akan membuat evaluasi (evals) untuk aplikasi contoh kami, ThemeBuilder. Anda akan mempelajari cara:

  • Membuat alur kerja evaluasi end-to-end yang andal sehingga Anda yakin dapat mengirimkannya kepada pengguna.
  • Menggunakan pola LLM-as-a-judge untuk mengukur kualitas subjektif. Membuat judge dengan penyiapan minimal, atau menggunakan teknik lanjutan untuk mengembangkan judge kustom yang berpikir seperti pakar domain teratas.
  • Mengotomatiskan pipeline dengan menjalankan evals pada waktu build (CI/CD) dan dalam produksi, untuk mendeteksi regresi lebih awal.
  • Menerapkan teknik yang memberi Anda keyakinan statistik dan membuktikan bahwa hasil Anda bukan hanya undian beruntung dari kumpulan pengujian, serta mengoptimalkan desain evals untuk mendeteksi regresi tersembunyi.
  • Menggunakan evals untuk memilih model terbaik untuk kasus penggunaan Anda.

Pendekatan

Anggaplah seri ini sebagai titik awal Anda. Anda dapat membuat pipeline evals lengkap hanya dengan menggunakan panduan utama, yang kami dasarkan pada praktik terbaik industri standar, dan menjelajahi teknik yang lebih canggih saat Anda siap untuk meningkatkan level.

Baik Anda menggunakan platform evals siap pakai atau membuat platform sendiri, konsep dan teknik yang akan Anda pelajari tidak bergantung pada alat. Memahami alasan di baliknya akan membantu Anda menghindari perangkap umum dan mengembangkan pipeline evals ahli, apa pun stack yang Anda pilih.

Setelah selesai, Anda akan mengetahui cara melakukan iterasi pada perintah, mengupgrade LLM, atau mengganti LLM saat mengirimkan aplikasi kepada pengguna dengan percaya diri.

Prasyarat

Anda harus memiliki pengalaman dalam membuat aplikasi dengan LLM. Kami berasumsi bahwa Anda sudah memahami: