AI 評価を作成できますか？ | AI on Chrome

直感では LLM ベースのアプリケーションの品質を測定できないのはなぜですか？

LLM は確率的であり、品質は主観的であることが多いためです。

LLM は一般的に、標準の開発環境でテストするには遅すぎるためです。

LLM は決定的であるため、同じ入力に対して常に同じ出力が生成されます。

最新の LLM のエラー率はゼロであるため、測定は冗長になります。

ThemeBuilder アプリケーションのルールベースの評価の例は次のうちどれですか？

ターゲットユーザーにとってキャッチーなモットーかどうかを判断する。

テキストの色と背景色のコントラスト比が 4.5:1 以上であることを確認します。

高級歯科医に心理的に適したカラーパレットかどうかを評価する。

生成されたモットーが、ユーザーがリクエストしたインスピレーションを与えるトーンと一致しているかどうかを確認します。

ポイントワイズ評価ではなくペアワイズ評価を使用する主な目的は何ですか？

2 つの入力を同時にテストして、API 呼び出しのコストを削減する。

JSON 形式などのバイナリ制約を評価する。

LLM 判定で出力に FAIL ラベルが割り当てられないようにします。

判定モデルが 2 つの出力から勝者を選択できるようにします。これは、絶対的なグレードを付与するよりも一貫性が高くなることがよくあります。

判定モデルを構成するときに、Temperature を `0` に設定する必要があるのはなぜですか？

詳細については、判定者がより長く詳細な根拠を生成できるようにします。

コスト: 使用するトークンを減らして、判定を安価にします。

一貫性を保つため。同じ入力に対して常に同じ回答を返すようにします。

審査員の批評の創造性を最大限に高めるため。

評価パイプラインで過適合が発生するとはどういうことですか？

特定の調整を渡すようにプロンプトが変更され、新しい未知のデータに一般化できない場合。

CI/CD での実行に時間がかかりすぎる場合。

ルールベースのテストと AI 評価の両方を使用する場合。

温度が低すぎる、またはその他の設定が高すぎる状態でジャッジが構成されている場合。

ブートストラップ手法の目的

アライメントデータセットをランダムに再サンプリングして、ジャッジのスコアの感度を確認します。

より小さなモデルを使用して、大量の合成ユーザー入力を生成する。

アプリケーションのコードのエラーを自動的に修正する。

すべてのジャッジの入力と出力に JSON スキーマを実装します。

人間の専門家間、または審査員と人間間の「偶然を超えた一致」を測定するために使用される指標は何ですか？

精度

カッパスコア

F₁ スコア

毒性を評価する際に、適合率よりも再現率を優先するのはなぜですか？

この特定のコンテキストでは、有害な出力が負のクラスであるためです。

有害な出力を見逃す（偽陰性）よりも、有害な出力がすべて特定されること（偽陽性を含む）のほうが重要であるためです。

精度が高いほど、判定が厳しすぎることはありません。

再現率は API トークンの消費量が少ないため、より多くの回数で評価できます。

動的ルーブリックパターンとは何ですか？

人間の評価者が各本番環境の出力を手動で評価するシステム。

実行するたびにランダム変数を変更するプロンプト。

別のモデルを使用して、ユーザーのプロンプトを審査員に届く前に書き換えます。

審査員が特定のサンプルで探すべき正確な動作またはエッジケースを説明する文字列を渡します。