Você consegue criar avaliações de IA? | AI on Chrome

Por que a intuição não é suficiente para medir a qualidade de aplicativos baseados em LLMs?

Porque os LLMs são probabilísticos e a qualidade geralmente é subjetiva.

Porque os LLMs geralmente são muito lentos para serem testados em um ambiente de desenvolvimento padrão.

Porque os LLMs são deterministas, ou seja, a mesma entrada sempre leva à mesma saída.

Porque os LLMs modernos têm taxas de erro zero, tornando as medições redundantes.

Qual das seguintes opções é um exemplo de avaliação baseada em regras para o aplicativo ThemeBuilder?

Decidir se um lema é cativante o suficiente para o público-alvo.

Verificar se a taxa de contraste entre a cor do texto e a cor de fundo é de pelo menos 4,5:1.

Avaliar se uma paleta de cores é psicologicamente adequada para um dentista sofisticado.

Verificar se o lema gerado corresponde ao tom inspirador solicitado pelo usuário.

Qual é a finalidade principal de usar a avaliação por pares em vez da avaliação por pontos?

Para reduzir o custo das chamadas de API testando duas entradas de uma só vez.

Para avaliar restrições binárias, como formatação JSON.

Para garantir que o avaliador de LLM nunca atribua um rótulo de FALHA a uma saída.

Para permitir que o juiz escolha um vencedor entre duas respostas, o que geralmente é mais consistente do que dar uma nota absoluta.

Ao configurar um modelo de juiz, por que definir a temperatura como `0`?

Para mais informações, permita que o juiz gere justificativas mais longas e detalhadas.

Para custo, para tornar o juiz mais barato usando menos tokens.

Para consistência, para que o juiz forneça a mesma resposta para a mesma entrada sempre.

Para maximizar a criatividade das críticas do juiz.

O que significa overfitting no pipeline de avaliação?

Quando o comando é modificado para transmitir um determinado alinhamento e não consegue generalizar para dados novos e inéditos.

Quando o juiz é muito lento para ser executado em CI/CD.

Quando você usa testes baseados em regras e avaliações de IA.

Quando o juiz é configurado com uma temperatura muito baixa ou outras configurações muito altas.

Para que serve a técnica de bootstrap?

Para reamostrar aleatoriamente o conjunto de dados de alinhamento e verificar a sensibilidade da pontuação do juiz.

Para gerar um grande volume de entradas sintéticas do usuário usando um modelo menor.

Para corrigir automaticamente erros no código do aplicativo.

Implementar um esquema JSON para todas as entradas e saídas do juiz.

Qual métrica é usada para medir a "concordância além da sorte" entre especialistas humanos ou entre um juiz e um humano?

Precisão

Pontuação Kappa

Pontuação F₁

Ao avaliar a toxicidade, por que priorizar o recall em vez da precisão?

Porque as respostas tóxicas são a classe negativa nesse contexto específico.

Porque é mais importante identificar todas as saídas tóxicas, mesmo que algumas sejam falsos positivos, do que perder saídas tóxicas (falsos negativos).

Porque a alta precisão garante que o juiz nunca seja muito rigoroso.

Como o recall custa menos tokens de API, você pode avaliar mais vezes.

Qual é o padrão de rubrica dinâmica?

Um sistema em que avaliadores humanos classificam manualmente cada resultado de produção.

Um comando que muda variáveis aleatórias a cada execução.

Usar um modelo separado para reescrever o comando do usuário antes que ele chegue ao juiz.

Transmitir uma string que descreve o comportamento exato ou o caso extremo que o avaliador precisa procurar em uma amostra específica.