Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Yang akan Anda pelajari

Apa yang dapat Anda harapkan dari seri ini, dan apa yang harus Anda ketahui sebelum memulai.

Maud Nalpas

Dalam seri ini, Anda akan membuat evaluasi (evals) untuk aplikasi contoh kami, ThemeBuilder. Anda akan mempelajari cara:

Membuat alur kerja evaluasi end-to-end yang andal sehingga Anda yakin dapat mengirimkannya kepada pengguna.
Menggunakan pola LLM-as-a-judge untuk mengukur kualitas subjektif. Membuat judge dengan penyiapan minimal, atau menggunakan teknik lanjutan untuk mengembangkan judge kustom yang berpikir seperti pakar domain teratas.
Mengotomatiskan pipeline dengan menjalankan evals pada waktu build (CI/CD) dan dalam produksi, untuk mendeteksi regresi lebih awal.
Menerapkan teknik yang memberi Anda keyakinan statistik dan membuktikan bahwa hasil Anda bukan hanya undian beruntung dari kumpulan pengujian, serta mengoptimalkan desain evals untuk mendeteksi regresi tersembunyi.
Menggunakan evals untuk memilih model terbaik untuk kasus penggunaan Anda.

Pendekatan

Anggaplah seri ini sebagai titik awal Anda. Anda dapat membuat pipeline evals lengkap hanya dengan menggunakan panduan utama, yang kami dasarkan pada praktik terbaik industri standar, dan menjelajahi teknik yang lebih canggih saat Anda siap untuk meningkatkan level.

Baik Anda menggunakan platform evals siap pakai atau membuat platform sendiri, konsep dan teknik yang akan Anda pelajari tidak bergantung pada alat. Memahami alasan di baliknya akan membantu Anda menghindari perangkap umum dan mengembangkan pipeline evals ahli, apa pun stack yang Anda pilih.

Setelah selesai, Anda akan mengetahui cara melakukan iterasi pada perintah, mengupgrade LLM, atau mengganti LLM saat mengirimkan aplikasi kepada pengguna dengan percaya diri.

Prasyarat

Anda harus memiliki pengalaman dalam membuat aplikasi dengan LLM. Kami berasumsi bahwa Anda sudah memahami:

Dasar-dasar LLM: determinisme versus mesin probabilitas, halusinasi, output terstruktur, suhu.
Teknik rekayasa perintah.
Dasar-dasar AI generatif: penyedia model, platform, tolok ukur, dan papan peringkat.

Sebelumnya

Pengantar Evaluasi AI

Berikutnya

Model mental

Yang akan Anda pelajari Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Pendekatan

Prasyarat

Yang akan Anda pelajari