¿Puedo crear evaluaciones con IA? | AI on Chrome

¿Por qué la intuición no es una forma suficiente de medir la calidad de las aplicaciones basadas en LLMs?

Esto se debe a que los LLM son probabilísticos y la calidad suele ser subjetiva.

Esto se debe a que, en general, los LLM son demasiado lentos para probarse en un entorno de desarrollo estándar.

Esto se debe a que los LLMs son determinísticos, lo que significa que la misma entrada siempre genera el mismo resultado.

Esto se debe a que los LLM modernos tienen tasas de error nulas, lo que hace que las mediciones sean redundantes.

¿Cuál de las siguientes opciones es un ejemplo de evaluación basada en reglas para la aplicación de ThemeBuilder?

Decidir si un lema es lo suficientemente pegadizo para el público objetivo

Verifica que la proporción de contraste entre el color del texto y el color de fondo sea de, al menos, 4.5:1.

Evaluar si una paleta de colores es psicológicamente adecuada para un dentista refinado

Verificar si el lema generado coincide con el tono inspirador que solicitó el usuario

¿Cuál es el propósito principal de usar la evaluación por pares en lugar de la evaluación por puntos?

Para reducir el costo de las llamadas a la API probando dos entradas a la vez

Evaluar restricciones binarias, como el formato JSON

Garantizar que el juez del LLM nunca asigne una etiqueta de FALLA a un resultado

Para permitir que el juez elija un ganador entre dos resultados, lo que suele ser más coherente que dar una calificación absoluta.

Cuando configuras un modelo de juez, ¿por qué debes establecer la temperatura en `0`?

Para obtener más información, permite que el juez genere explicaciones más largas y detalladas.

En cuanto al costo, para que el juez sea más económico usando menos tokens

Para garantizar la coherencia, de modo que el juez proporcione la misma respuesta para la misma entrada cada vez

Para maximizar la creatividad de las críticas del juez

¿Qué significa el sobreajuste en tu canalización de evaluación?

Cuando se modifica la instrucción para pasar una alineación determinada y no se generaliza a datos nuevos no vistos.

Cuando el juez es demasiado lento para ejecutarse en CI/CD.

Cuando usas pruebas basadas en reglas y evaluaciones de IA

Cuando el juez está configurado con una temperatura demasiado baja o con otros parámetros de configuración demasiado altos

¿Para qué se usa la técnica de bootstrapping?

Vuelve a muestrear aleatoriamente el conjunto de datos de alineación para verificar qué tan sensible es la puntuación del juez.

Generar un gran volumen de entradas sintéticas del usuario con un modelo más pequeño

Corregir automáticamente los errores en el código de la aplicación

Implementar un esquema JSON para todas las entradas y salidas del juez

¿Qué métrica se usa para medir el "acuerdo más allá del azar" entre expertos humanos o entre un juez y un humano?

Exactitud

Precisión

Puntuación de Kappa

Puntuación F₁

Cuando se evalúa la toxicidad, ¿por qué se prioriza la recuperación por sobre la precisión?

Esto se debe a que los resultados tóxicos son la clase negativa en este contexto específico.

Esto se debe a que es más importante identificar todos los resultados tóxicos, incluso si algunos son falsos positivos, que no identificar los resultados tóxicos (falsos negativos).

Esto se debe a que la alta precisión garantiza que el juez nunca sea demasiado estricto.

Dado que la recuperación cuesta menos tokens de API, puedes realizar más evaluaciones.

¿Qué es el patrón de rúbrica dinámica?

Un sistema en el que los evaluadores humanos califican manualmente cada resultado de producción.

Es una instrucción que cambia las variables aleatorias cada vez que se ejecuta.

Usar un modelo independiente para reescribir la instrucción del usuario antes de que llegue al evaluador

Es una cadena que describe el comportamiento exacto o el caso límite que el juez debe buscar en una muestra específica.