Litmus: Especificación de métricas impulsada por código y sin etiquetas para evaluar sistemas de IA

Litmus es un sistema sin etiquetas que diseña métricas de evaluación y monitoreo para pipelines de IA al elicitar la intención de evaluación a partir del código fuente y el interrogatorio dirigido. En lugar de asumir que el objetivo de la evaluación es conocido, identifica lo que debe medirse y por qué para construir un portafolio de métricas justificado.

Evaluado en tres pipelines de IA reales definidos por código: agrupación de cuentas financieras, QA científico y evaluación de riesgo inherente.
Logró la cobertura de preocupaciones más amplia o empatada como más amplia y abarca más etapas del pipeline que AutoMetrics y tres líneas base de DynamicRubric.
Produjo un portafolio de redundancia cercana a cero y se clasificó primero en validez contra las etiquetas de calidad por fila en los tres pipelines.
Superó decisivamente a las líneas base en QA científico con una correlación de Spearman de 0.72 frente a menos de 0.47 para cada línea base.

Los resultados apoyan un cambio desde la implementación automática de métricas hacia la especificación automática de métricas, argumentando que los sistemas de evaluación deben primero determinar qué debe medirse y por qué.