O que esperar desta série e o que você precisa saber antes de começar.
Nesta série, você vai criar avaliações (evals) para nosso aplicativo de exemplo, o ThemeBuilder. Você vai aprender a:
- Crie um fluxo de trabalho de avaliação robusto e completo para ter certeza de que pode enviar aos usuários.
- Use o padrão LLM como um juiz para medir a qualidade subjetiva. Crie um avaliador com configuração mínima ou use técnicas avançadas para desenvolver um avaliador personalizado que pense como especialistas em domínios de alto nível.
- Automatize seu pipeline executando avaliações no tempo de build (CI/CD) e em produção para detectar regressões no início.
- Aplique técnicas que ofereçam confiança estatística e provem que seus resultados não são apenas um sorteio aleatório do seu grupo de teste. Além disso, otimize o design das avaliações para detectar regressões sorrateiras.
- Use as avaliações para selecionar o melhor modelo para seu caso de uso.
Abordagem
Pense nesta série como seu ponto de partida. Você pode criar seu pipeline completo de avaliações usando apenas a orientação principal, que se baseia nas práticas recomendadas padrão do setor, e explorar técnicas mais avançadas quando estiver pronto para subir de nível.
Se você usar uma plataforma de avaliações pronta ou criar a sua própria, os conceitos e as técnicas que aprenderá serão independentes da ferramenta. Entender o motivo por trás delas ajuda você a evitar armadilhas comuns e desenvolver um pipeline de avaliações especializadas, não importa qual pilha você escolha.
Depois de concluir, você vai saber como iterar no comando, fazer upgrade ou trocar o LLM enquanto envia para os usuários com confiança.
Pré-requisitos
Você precisa ter alguma experiência com a criação de LLMs. Supomos que você já esteja familiarizado com:
- Noções básicas de LLM: determinismo x mecanismos de probabilidade, alucinação, saídas estruturadas e temperatura.
- Técnicas de engenharia de comando.
- Noções básicas de IA generativa: provedores de modelos, plataformas, benchmarks e rankings.