Google uses AI technology to translate content into your preferred language. AI translations can contain errors. 首頁 Docs AI on Chrome Learn Evals 透過集合功能整理內容 你可以依據偏好儲存及分類內容。 你能建立 AI 評估嗎? 返回課程 為什麼直覺不足以評估以 LLM 為基礎的應用程式品質? 因為 LLM 是機率模型,而品質通常是主觀的。 因為 LLM 通常太慢,無法在標準開發環境中測試。 因為 LLM 具有確定性,也就是說,相同的輸入內容一律會產生相同的輸出內容。 因為現代 LLM 的錯誤率為零,因此評估作業是多餘的。 下列何者是 ThemeBuilder 應用程式的規則式評估範例? 判斷口號是否夠吸引目標對象。 確認文字顏色和背景顏色的對比度至少為 4.5:1。 評估配色是否適合高檔牙醫診所。 檢查產生的座右銘是否符合使用者要求,能激勵人心。 相較於逐點評估,逐對評估的主要用途為何? 一次測試兩個輸入內容,降低 API 呼叫成本。 評估 JSON 格式等二進位限制。 確保 LLM 評估人員絕不會將 FAIL 標籤指派給輸出內容。 讓評審從兩個輸出內容中選出優勝者,這通常比給予絕對分數更一致。 設定評估模型時,為什麼要將溫度參數設為 0? 如要進一步瞭解,請允許法官生成更長、更詳細的理由。 降低成本:使用較少的權杖,減少評估費用。 為了確保一致性,法官每次都會針對相同輸入內容提供相同答案。 盡量讓評審的評論發揮創意。 評估管道中的過度訓練是什麼意思? 提示經過修改,可傳遞特定對齊方式,但無法將新資料一般化。 當法官在 CI/CD 中執行速度過慢時。 同時使用規則式測試和 AI 評估。 法官的溫度參數設定過低,或有其他設定過高。 啟動程序技術有哪些用途? 隨機重新取樣對齊資料集,檢查評審的分數有多敏感。 使用較小的模型產生大量合成使用者輸入內容。 自動修正應用程式程式碼中的錯誤。 為所有評估員輸入和輸出內容實作 JSON 結構定義。 用來評估人類專家之間或評審與人類之間「超出運氣」一致性的指標為何? 精確度 精確度 Kappa 分數 F1 分數 評估惡意指數時,為何召回率比精確度更重要? 因為在這個特定情境中,有害輸出內容屬於負類。 因為與錯過有害內容 (偽陰性) 相比,找出所有有害內容 (即使部分為誤判) 更為重要。 因為高精確度可確保評估不會過於嚴格。 因為「回想」功能使用的 API 權杖較少,因此您可以評估更多次。 什麼是動態評分量表模式? 由人工評估人員手動評估每個正式版輸出內容的系統。 每次執行時都會變更隨機變數的提示。 使用其他模型重新撰寫使用者的提示,再傳送給評估人員。 傳遞字串,說明法官應在特定樣本中尋找的確切行為或極端情況。 提交答案 error_outline 計算測驗分數時出現錯誤。請再試一次。 上一頁 arrow_back 課程資源