Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

บทสรุป

Maud Nalpas

Alexandra Klepper

คุณได้เรียนหลักสูตรเกี่ยวกับการประเมิน AI จนจบแล้ว โดยได้นำความรู้เกี่ยวกับการทดสอบเว็บที่มีอยู่มาปรับใช้กับโลกของ LLM สร้างการทำ Unit Test ตามกฎ สร้างและทดสอบโมเดลการตัดสิน และเชื่อมโยงไปป์ไลน์การทดสอบ

อุตสาหกรรมของเรากังวลเกี่ยวกับความรู้สึกและลักษณะที่ LLM ไม่สามารถกำหนดได้ แต่ในความเป็นจริงแล้ว หากคุณเคยสร้างเว็บแอปที่ต้องทำงานได้อย่างไร้ที่ติในเบราว์เซอร์ อุปกรณ์ และขนาดหน้าจอต่างๆ คุณก็พร้อมสำหรับสิ่งนี้ เนื่องจากอินพุต 1 รายการอาจทำให้เกิดลักษณะการทำงานที่เป็นไปได้หลายอย่าง สภาพแวดล้อมที่คุณควบคุมไม่ได้ทั้งหมด และปัญหาที่ว่า "ใช้งานได้ในเครื่องของฉัน" ที่โด่งดัง

โซลูชันคือการทดสอบ ซึ่งการประเมินก็คือการทดสอบฟีเจอร์ AI นั่นเอง การทดสอบเว็บช่วยให้คุณมั่นใจในการเผยแพร่ในสภาพแวดล้อมเบราว์เซอร์ที่หลากหลาย และการประเมินก็ทำหน้าที่เดียวกันกับฟีเจอร์ AI สร้างการประเมินและเผยแพร่ได้เลย

ก่อนที่จะเริ่มลงมือทำ ให้ลองถามคำถามสำคัญๆ กับตัวเองสักครู่ เช่น อะไรที่ทำให้เอาต์พุต "ไม่ดี" กำหนดกรณีที่เกิดข้อผิดพลาด ทำความคุ้นเคยกับข้อมูลอย่างละเอียด และทำงานร่วมกับผู้เชี่ยวชาญในโดเมนอย่างใกล้ชิด อะไรที่ทำให้เอาต์พุต "ดี" เทียบกับ "ดีที่สุด" กำหนดความคาดหวังของคุณให้ชัดเจนก่อนที่จะขอให้โมเดลให้คะแนน คุณจะทำการประเมินบ่อยแค่ไหน การพัฒนาที่ขับเคลื่อนด้วยการประเมิน เป็นแนวทางหนึ่งที่คุณสามารถนำไปใช้ได้ แต่ให้กำหนดความคาดหวังเกี่ยวกับความถี่ในการประเมินหลังจากที่แอปพลิเคชันได้รับการติดตั้งใช้งานแล้ว

พื้นที่ AI มีการเปลี่ยนแปลงอย่างรวดเร็ว และการสร้างไปป์ไลน์ทั้งหมดอาจทำให้รู้สึกหนักใจ ให้เริ่มจากเล็กๆ โดยเขียนการทดสอบตามกฎ 1 รายการและสร้างโมเดลการตัดสิน LLM พื้นฐาน 1 รายการ เมื่อกำหนดเกณฑ์มาตรฐานได้แล้ว คุณจะหยุดการคาดเดาและกลับมาควบคุมในฐานะวิศวกรได้อีกครั้ง คุณจะข้ามช่องว่างจากต้นแบบภายในที่สนุกไปสู่ฟีเจอร์ที่มีประสิทธิภาพซึ่งคุณสามารถทดสอบ วัดผล และเผยแพร่ได้อย่างมั่นใจ อย่าลืมว่าการประเมินที่สร้างโดยมนุษย์อาจมีข้อบกพร่อง เนื่องจากมีการฝังอคติไว้ ติดตั้งใช้งานการตรวจสอบโมเดลและการประเมินเป็นประจำเพื่อจัดการกับอคติ

ทำตามหลักสูตรนี้เพื่อสร้างการทดสอบแรก ดูโค้ดที่เกี่ยวข้อง และเริ่มทดสอบ แชร์สิ่งที่คุณได้เรียนรู้ เช่น คุณทำการประเมินอย่างไร ติดต่อเราได้ที่ @ChromiumDev, แชร์กับเราใน BlueSky หรือนัดเวลาให้คำปรึกษาแบบตัวต่อตัวกับทีม AI ของ Web.dev

สร้างผู้เชี่ยวชาญด้านการตัดสิน

แหล่งข้อมูลสําหรับหลักสูตร

บทสรุป จัดทุกอย่างให้เป็นระเบียบอยู่เสมอด้วยคอลเล็กชัน บันทึกและจัดหมวดหมู่เนื้อหาตามค่ากำหนดของคุณ

บทสรุป