Dapatkah Anda membuat evaluasi AI? | AI on Chrome

Mengapa intuisi tidak cukup untuk mengukur kualitas aplikasi berbasis LLM?

Karena LLM bersifat probabilistik dan kualitasnya sering kali subjektif.

Karena LLM umumnya terlalu lambat untuk diuji di lingkungan pengembangan standar.

Karena LLM bersifat deterministik, yang berarti input yang sama akan selalu menghasilkan output yang sama.

Karena LLM modern memiliki tingkat error nol, sehingga pengukuran menjadi tidak diperlukan.

Manakah dari berikut ini yang merupakan contoh evaluasi berbasis aturan untuk aplikasi ThemeBuilder?

Memutuskan apakah motto cukup menarik bagi target audiens.

Memverifikasi bahwa rasio kontras antara warna teks dan warna latar belakang minimal 4,5:1.

Mengevaluasi apakah palet warna sesuai secara psikologis untuk dokter gigi kelas atas.

Memeriksa apakah motto yang dihasilkan sesuai dengan gaya bahasa inspiratif yang diminta oleh pengguna.

Apa tujuan utama penggunaan evaluasi berpasangan, bukan evaluasi pointwise?

Untuk mengurangi biaya panggilan API dengan menguji dua input sekaligus.

Untuk mengevaluasi batasan biner seperti pemformatan JSON.

Untuk memastikan bahwa hakim LLM tidak pernah menetapkan label GAGAL pada output.

Untuk memungkinkan hakim memilih pemenang di antara dua output, yang sering kali lebih konsisten daripada memberikan nilai mutlak.

Saat mengonfigurasi model penilaian, mengapa Anda harus menyetel suhu ke `0`?

Untuk informasi selengkapnya, izinkan hakim membuat alasan yang lebih panjang dan mendetail.

Untuk biaya, agar penilaian lebih murah dengan menggunakan lebih sedikit token.

Untuk konsistensi, sehingga hakim memberikan jawaban yang sama untuk input yang sama setiap saat.

Untuk memaksimalkan kreativitas kritik hakim.

Apa artinya overfitting dalam pipeline evaluasi Anda?

Saat perintah diubah untuk meneruskan keselarasan tertentu dan gagal melakukan generalisasi ke data baru yang belum pernah dilihat.

Saat hakim terlalu lambat berjalan di CI/CD.

Saat Anda menggunakan pengujian berbasis aturan dan evaluasi AI.

Saat hakim dikonfigurasi dengan suhu yang terlalu rendah atau setelan lain yang terlalu tinggi.

Untuk apa teknik bootstrapping digunakan?

Untuk mengambil sampel ulang set data penyelarasan secara acak guna memeriksa seberapa sensitif skor juri.

Untuk membuat input pengguna sintetis dalam jumlah besar menggunakan model yang lebih kecil.

Untuk memperbaiki error secara otomatis dalam kode aplikasi.

Untuk menerapkan skema JSON untuk semua input dan output hakim.

Metrik apa yang digunakan untuk mengukur 'kesepakatan di luar keberuntungan' antara pakar manusia atau antara juri dan manusia?

Akurasi

Presisi

Skor Kappa

Skor F₁

Saat mengevaluasi toksisitas, mengapa perolehan lebih diprioritaskan daripada presisi?

Karena output berbahaya adalah kelas negatif dalam konteks spesifik ini.

Karena lebih penting untuk mengidentifikasi semua output berbahaya, meskipun beberapa di antaranya adalah positif palsu, daripada melewatkan output berbahaya (negatif palsu).

Karena presisi tinggi memastikan bahwa hakim tidak pernah terlalu ketat.

Karena recall memerlukan lebih sedikit token API, Anda dapat melakukan evaluasi lebih sering.

Apa pola rubrik dinamis?

Sistem yang menggunakan evaluator manual untuk menilai setiap output produksi secara manual.

Perintah yang mengubah variabel acak setiap kali dijalankan.

Menggunakan model terpisah untuk menulis ulang perintah pengguna sebelum sampai ke penilai.

Meneruskan string yang menjelaskan perilaku atau kasus ekstrem yang harus dicari hakim dalam sampel tertentu.