Google uses AI technology to translate content into your preferred language. AI translations can contain errors. หน้าแรก Docs AI on Chrome Learn Evals จัดทุกอย่างให้เป็นระเบียบอยู่เสมอด้วยคอลเล็กชัน บันทึกและจัดหมวดหมู่เนื้อหาตามค่ากำหนดของคุณ คุณสร้างการประเมิน AI ได้ไหม กลับไปที่เส้นทาง เหตุใดสัญชาตญาณจึงเป็นวิธีที่ไม่เพียงพอในการวัดคุณภาพของแอปพลิเคชันที่อิงตาม LLM เนื่องจาก LLM เป็นเรื่องของความเป็นไปได้และคุณภาพมักเป็นเรื่องส่วนบุคคล เนื่องจากโดยทั่วไปแล้ว LLM ทำงานช้าเกินกว่าจะทดสอบในสภาพแวดล้อมในการพัฒนาซอฟต์แวร์มาตรฐานได้ เนื่องจาก LLM เป็นแบบดีเทอร์มินิสติก ซึ่งหมายความว่าอินพุตเดียวกันจะนำไปสู่เอาต์พุตเดียวกันเสมอ เนื่องจาก LLM สมัยใหม่มีอัตราข้อผิดพลาดเป็น 0 จึงทำให้การวัดผลไม่จำเป็น ข้อใดต่อไปนี้คือตัวอย่างของการประเมินตามกฎสำหรับแอปพลิเคชัน ThemeBuilder การตัดสินว่าคำขวัญนั้นติดหูพอสำหรับกลุ่มเป้าหมายหรือไม่ การยืนยันว่าอัตราส่วนคอนทราสต์ระหว่างสีข้อความและสีพื้นหลังมีอย่างน้อย 4.5:1 การประเมินว่าชุดสีเหมาะสมกับจิตวิทยาสำหรับทันตแพทย์ระดับไฮเอนด์หรือไม่ ตรวจสอบว่าคำขวัญที่สร้างขึ้นตรงกับโทนที่สร้างแรงบันดาลใจที่ผู้ใช้ขอหรือไม่ จุดประสงค์หลักของการใช้การประเมินแบบเป็นคู่แทนการประเมินแบบเป็นจุดคืออะไร เพื่อลดค่าใช้จ่ายในการเรียก API โดยการทดสอบอินพุต 2 รายการพร้อมกัน เพื่อประเมินข้อจำกัดแบบไบนารี เช่น การจัดรูปแบบ JSON เพื่อให้มั่นใจว่าผู้พิพากษา LLM จะไม่ติดป้ายกำกับ "ไม่ผ่าน" ให้กับเอาต์พุต เพื่อให้กรรมการเลือกผู้ชนะจากผลลัพธ์ 2 รายการได้ ซึ่งมักจะสอดคล้องกันมากกว่าการให้คะแนนแบบสัมบูรณ์ เหตุใดคุณจึงควรตั้งค่าอุณหภูมิเป็น 0 เมื่อกำหนดค่าโมเดลผู้ตัดสิน ดูข้อมูลเพิ่มเติมเพื่ออนุญาตให้ผู้พิพากษาสร้างเหตุผลที่ยาวและละเอียดขึ้น สำหรับต้นทุน เพื่อให้การตัดสินมีราคาถูกลงโดยใช้โทเค็นน้อยลง เพื่อให้มีความสอดคล้องกัน ผู้ตัดสินจึงให้คำตอบเดียวกันสำหรับการป้อนข้อมูลเดียวกันทุกครั้ง เพื่อเพิ่มความคิดสร้างสรรค์ในการวิจารณ์ของกรรมการ การเกิด Overfitting ในไปป์ไลน์การประเมินหมายความว่าอย่างไร เมื่อมีการแก้ไขพรอมต์เพื่อให้สอดคล้องกับข้อมูลบางอย่างและไม่สามารถนำไปใช้กับข้อมูลใหม่ที่ไม่เคยเห็น เมื่อการทดสอบช้าเกินไปที่จะเรียกใช้ใน CI/CD เมื่อคุณใช้ทั้งการทดสอบตามกฎและการประเมินโดย AI เมื่อกำหนดค่าตัวตัดสินด้วยอุณหภูมิที่ต่ำเกินไปหรือการตั้งค่าอื่นๆ ที่สูงเกินไป เทคนิคการบูตสแตรปใช้เพื่ออะไร เพื่อสุ่มตัวอย่างชุดข้อมูลการจัดแนวอีกครั้งเพื่อตรวจสอบว่าคะแนนของผู้พิพากษามีความละเอียดอ่อนเพียงใด เพื่อสร้างอินพุตของผู้ใช้สังเคราะห์จำนวนมากโดยใช้โมเดลขนาดเล็กกว่า เพื่อแก้ไขข้อผิดพลาดในโค้ดของแอปพลิเคชันโดยอัตโนมัติ ใช้สคีมา JSON สำหรับอินพุตและเอาต์พุตทั้งหมดของกรรมการ ใช้เมตริกใดในการวัด "ความเห็นพ้องที่มากกว่าความโชคดี" ระหว่างผู้เชี่ยวชาญที่เป็นมนุษย์หรือระหว่างผู้พิพากษากับมนุษย์ ความแม่นยำ ความแม่นยำ คะแนน Kappa คะแนน F1 เมื่อประเมินความเป็นพิษ เหตุใดจึงควรให้ความสำคัญกับค่าความระลึกได้มากกว่าความแม่นยำ เนื่องจากเอาต์พุตที่เป็นพิษเป็นคลาสเชิงลบในบริบทนี้ เนื่องจากสิ่งสำคัญกว่าคือการระบุเอาต์พุตที่เป็นพิษทั้งหมด แม้ว่าบางรายการจะเป็นผลบวกลวงก็ตาม ดีกว่าการพลาดเอาต์พุตที่เป็นพิษ (ผลลบลวง) เนื่องจากความแม่นยำสูงช่วยให้มั่นใจได้ว่ากรรมการจะไม่เข้มงวดมากเกินไป เนื่องจากการเรียกคืนใช้โทเค็น API น้อยกว่า คุณจึงประเมินได้หลายครั้งขึ้น รูปแบบของรูบริกแบบไดนามิกคืออะไร ระบบที่ผู้ประเมินที่เป็นมนุษย์ให้คะแนนเอาต์พุตการผลิตแต่ละรายการด้วยตนเอง พรอมต์ที่เปลี่ยนตัวแปรแบบสุ่มทุกครั้งที่เรียกใช้ ใช้โมเดลแยกต่างหากเพื่อเขียนพรอมต์ของผู้ใช้ใหม่ก่อนที่จะส่งไปยังผู้พิพากษา การส่งสตริงที่อธิบายลักษณะการทำงานที่แน่นอนหรือกรณีขอบที่ผู้ตรวจสอบควรค้นหาในตัวอย่างที่เฉพาะเจาะจง ส่งคำตอบ error_outline เกิดข้อผิดพลาดขณะให้คะแนนแบบทดสอบ โปรดลองอีกครั้ง ก่อนหน้า arrow_back แหล่งข้อมูลสําหรับหลักสูตร