สิ่งที่คุณจะได้เรียนรู้

สิ่งที่คุณจะได้รับจากชุดการเรียนรู้นี้ และสิ่งที่คุณควรรู้ก่อนเริ่มต้น

ในซีรีส์นี้ คุณจะสร้างการประเมิน (Evals) สำหรับแอปพลิเคชันตัวอย่างของเรา ThemeBuilder โดยคุณจะได้เรียนรู้วิธีต่อไปนี้

  • สร้างเวิร์กโฟลว์การประเมินแบบครบวงจรที่แข็งแกร่งเพื่อให้คุณมั่นใจว่าจะส่งมอบให้ผู้ใช้ได้
  • ใช้รูปแบบ LLM-as-a-judge เพื่อวัดคุณภาพเชิงอัตวิสัย สร้างผู้ตัดสิน โดยมีการตั้งค่าขั้นต่ำ หรือใช้เทคนิคขั้นสูงเพื่อพัฒนาผู้ตัดสินที่กำหนดเองซึ่ง คิดเหมือนผู้เชี่ยวชาญในโดเมนชั้นนำ
  • ทำให้ไปป์ไลน์เป็นแบบอัตโนมัติโดยการเรียกใช้การประเมินในเวลาบิลด์ (CI/CD) และใน การใช้งานจริง เพื่อตรวจหาการถดถอยตั้งแต่เนิ่นๆ
  • ใช้เทคนิคที่ช่วยให้คุณมีความเชื่อมั่นทางสถิติและพิสูจน์ว่าผลลัพธ์ไม่ได้มาจากการสุ่มเลือกจากกลุ่มทดสอบ และเพิ่มประสิทธิภาพการออกแบบการประเมินเพื่อตรวจหาการถดถอยที่ซ่อนอยู่
  • ใช้การประเมินเพื่อเลือกโมเดลที่ดีที่สุดสำหรับกรณีการใช้งานของคุณ

แนวทาง

ให้คิดว่าชุดข้อมูลนี้เป็นจุดเริ่มต้นของคุณ คุณสามารถสร้างไปป์ไลน์การประเมินแบบเต็มได้โดยใช้คำแนะนำหลักเท่านั้น ซึ่งเราได้อิงตามแนวทางปฏิบัติแนะนำมาตรฐานของอุตสาหกรรม และสำรวจเทคนิคขั้นสูงเพิ่มเติมเมื่อคุณพร้อมที่จะยกระดับ

ไม่ว่าคุณจะใช้แพลตฟอร์มการประเมินที่พร้อมใช้งานหรือสร้างขึ้นเอง แนวคิดและเทคนิคที่คุณจะได้เรียนรู้ก็ไม่ขึ้นอยู่กับเครื่องมือ การทำความเข้าใจเหตุผลเบื้องหลังเมตริกเหล่านี้ จะช่วยให้คุณหลีกเลี่ยงกับดักทั่วไปและพัฒนาไปป์ไลน์การประเมินโดยผู้เชี่ยวชาญได้ ไม่ว่าคุณจะเลือกใช้สแต็กใดก็ตาม

เมื่อดำเนินการเสร็จแล้ว คุณจะทราบวิธีทำซ้ำพรอมต์ อัปเกรด LLM หรือ เปลี่ยน LLM ขณะที่ส่งให้ผู้ใช้ได้อย่างมั่นใจ

ข้อกำหนดเบื้องต้น

คุณควรมีประสบการณ์ในการสร้างด้วย LLM เราถือว่าคุณคุ้นเคยกับสิ่งต่อไปนี้อยู่แล้ว