สิ่งที่คุณจะได้รับจากชุดการเรียนรู้นี้ และสิ่งที่คุณควรรู้ก่อนเริ่มต้น
ในซีรีส์นี้ คุณจะสร้างการประเมิน (Evals) สำหรับแอปพลิเคชันตัวอย่างของเรา ThemeBuilder โดยคุณจะได้เรียนรู้วิธีต่อไปนี้
- สร้างเวิร์กโฟลว์การประเมินแบบครบวงจรที่แข็งแกร่งเพื่อให้คุณมั่นใจว่าจะส่งมอบให้ผู้ใช้ได้
- ใช้รูปแบบ LLM-as-a-judge เพื่อวัดคุณภาพเชิงอัตวิสัย สร้างผู้ตัดสิน โดยมีการตั้งค่าขั้นต่ำ หรือใช้เทคนิคขั้นสูงเพื่อพัฒนาผู้ตัดสินที่กำหนดเองซึ่ง คิดเหมือนผู้เชี่ยวชาญในโดเมนชั้นนำ
- ทำให้ไปป์ไลน์เป็นแบบอัตโนมัติโดยการเรียกใช้การประเมินในเวลาบิลด์ (CI/CD) และใน การใช้งานจริง เพื่อตรวจหาการถดถอยตั้งแต่เนิ่นๆ
- ใช้เทคนิคที่ช่วยให้คุณมีความเชื่อมั่นทางสถิติและพิสูจน์ว่าผลลัพธ์ไม่ได้มาจากการสุ่มเลือกจากกลุ่มทดสอบ และเพิ่มประสิทธิภาพการออกแบบการประเมินเพื่อตรวจหาการถดถอยที่ซ่อนอยู่
- ใช้การประเมินเพื่อเลือกโมเดลที่ดีที่สุดสำหรับกรณีการใช้งานของคุณ
แนวทาง
ให้คิดว่าชุดข้อมูลนี้เป็นจุดเริ่มต้นของคุณ คุณสามารถสร้างไปป์ไลน์การประเมินแบบเต็มได้โดยใช้คำแนะนำหลักเท่านั้น ซึ่งเราได้อิงตามแนวทางปฏิบัติแนะนำมาตรฐานของอุตสาหกรรม และสำรวจเทคนิคขั้นสูงเพิ่มเติมเมื่อคุณพร้อมที่จะยกระดับ
ไม่ว่าคุณจะใช้แพลตฟอร์มการประเมินที่พร้อมใช้งานหรือสร้างขึ้นเอง แนวคิดและเทคนิคที่คุณจะได้เรียนรู้ก็ไม่ขึ้นอยู่กับเครื่องมือ การทำความเข้าใจเหตุผลเบื้องหลังเมตริกเหล่านี้ จะช่วยให้คุณหลีกเลี่ยงกับดักทั่วไปและพัฒนาไปป์ไลน์การประเมินโดยผู้เชี่ยวชาญได้ ไม่ว่าคุณจะเลือกใช้สแต็กใดก็ตาม
เมื่อดำเนินการเสร็จแล้ว คุณจะทราบวิธีทำซ้ำพรอมต์ อัปเกรด LLM หรือ เปลี่ยน LLM ขณะที่ส่งให้ผู้ใช้ได้อย่างมั่นใจ
ข้อกำหนดเบื้องต้น
คุณควรมีประสบการณ์ในการสร้างด้วย LLM เราถือว่าคุณคุ้นเคยกับสิ่งต่อไปนี้อยู่แล้ว
- พื้นฐานของ LLM: การกำหนด เทียบกับเครื่องมือความน่าจะเป็น การหลอน เอาต์พุตที่มีโครงสร้าง อุณหภูมิ
- เทคนิควิศวกรรมพรอมต์
- พื้นฐานของ Generative AI: ผู้ให้บริการโมเดล แพลตฟอร์ม การเปรียบเทียบและ ลีดเดอร์บอร์ด