Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

O que você vai aprender

O que esperar desta série e o que você precisa saber antes de começar.

Maud Nalpas

Nesta série, você vai criar avaliações (evals) para nosso aplicativo de exemplo, o ThemeBuilder. Você vai aprender a:

Crie um fluxo de trabalho de avaliação robusto e completo para ter certeza de que pode enviar aos usuários.
Use o padrão LLM como um juiz para medir a qualidade subjetiva. Crie um avaliador com configuração mínima ou use técnicas avançadas para desenvolver um avaliador personalizado que pense como especialistas em domínios de alto nível.
Automatize seu pipeline executando avaliações no tempo de build (CI/CD) e em produção para detectar regressões no início.
Aplique técnicas que ofereçam confiança estatística e provem que seus resultados não são apenas um sorteio aleatório do seu grupo de teste. Além disso, otimize o design das avaliações para detectar regressões sorrateiras.
Use as avaliações para selecionar o melhor modelo para seu caso de uso.

Abordagem

Pense nesta série como seu ponto de partida. Você pode criar seu pipeline completo de avaliações usando apenas a orientação principal, que se baseia nas práticas recomendadas padrão do setor, e explorar técnicas mais avançadas quando estiver pronto para subir de nível.

Se você usar uma plataforma de avaliações pronta ou criar a sua própria, os conceitos e as técnicas que aprenderá serão independentes da ferramenta. Entender o motivo por trás delas ajuda você a evitar armadilhas comuns e desenvolver um pipeline de avaliações especializadas, não importa qual pilha você escolha.

Depois de concluir, você vai saber como iterar no comando, fazer upgrade ou trocar o LLM enquanto envia para os usuários com confiança.

Pré-requisitos

Você precisa ter alguma experiência com a criação de LLMs. Supomos que você já esteja familiarizado com:

Noções básicas de LLM: determinismo x mecanismos de probabilidade, alucinação, saídas estruturadas e temperatura.
Técnicas de engenharia de comando.
Noções básicas de IA generativa: provedores de modelos, plataformas, benchmarks e rankings.

Introdução às avaliações de IA

Avançar

Modelo mental

O que você vai aprender Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Abordagem

Pré-requisitos

O que você vai aprender