Kesimpulan

Anda telah mencapai akhir kursus kami tentang evaluasi AI. Anda memetakan pengetahuan pengujian web yang ada ke dunia LLM, membuat pengujian unit berbasis aturan, membangun dan menguji model penilaian, serta menghubungkan pipeline pengujian.

Industri kami mengkhawatirkan nuansa dan non-determinisme LLM. Pada kenyataannya, jika Anda pernah membuat aplikasi web yang harus berfungsi dengan sempurna di berbagai browser, perangkat, dan ukuran layar, Anda sudah siap untuk hal ini. Satu input yang menghasilkan beberapa kemungkinan perilaku, lingkungan yang tidak dapat Anda kendalikan sepenuhnya, dan "Berfungsi di komputer saya" yang terkenal.

Solusi sedang diuji. Evaluasi persis seperti ini: pengujian untuk fitur AI Anda. Pengujian web memberi Anda keyakinan untuk mengirimkan di lingkungan browser yang tidak dapat diprediksi, dan evaluasi melakukan hal yang sama untuk fitur AI Anda. Bangun evaluasi Anda, dan kirimkan!

Sebelum Anda mulai, luangkan waktu sejenak untuk mengajukan beberapa pertanyaan penting kepada diri Anda sendiri: Apa yang membuat output menjadi "buruk"? Tentukan kasus kegagalan Anda. Pahami data Anda secara mendalam, dan berkolaborasilah secara erat dengan pakar domain. Apa yang membuat output "baik" versus "ideal"? Tentukan ekspektasi Anda dengan jelas sebelum meminta model untuk menilainya. Seberapa sering Anda akan menjalankan evaluasi? Pengembangan berbasis evaluasi adalah salah satu pendekatan yang dapat Anda lakukan, tetapi tetapkan ekspektasi seberapa sering Anda akan melakukan evaluasi setelah aplikasi Anda di-deploy.

Bidang AI berkembang pesat, dan membangun pipeline lengkap bisa terasa sulit. Mulai dari yang kecil: tulis satu pengujian berbasis aturan dan buat satu hakim LLM dasar. Setelah Anda menetapkan dasar tersebut, Anda berhenti menebak dan mendapatkan kembali kekuatan Anda sebagai engineer. Anda melewati kesenjangan dari prototipe internal yang menyenangkan menjadi fitur andal yang dapat diuji, diukur, dan dikirim dengan percaya diri. Ingat, evaluasi yang dibuat oleh manusia rentan terhadap kegagalan manusia. Bias sudah ada di dalam. Lakukan audit rutin pada model dan evaluasi Anda untuk mengatasi bias.

Ikuti kursus ini untuk membuat pengujian pertama Anda, lihat kode pendamping, dan mulai pengujian. Bagikan hal yang telah Anda pelajari: Bagaimana cara Anda menjalankan evaluasi? Hubungi kami di @ChromiumDev, bagikan kepada kami di BlueSky, atau jadwalkan sesi konsultasi pribadi dengan Tim AI Web.dev.