Aprendizaje Positivo-Sin Etiquetar para la Auditoría de Evaluación de LLM

Un nuevo marco utiliza aprendizaje positivo-sin etiquetar y Transporte Óptimo Parcial para audiar sesgos en la evaluación de LLM. Alinea salidas positivas verificadas por humanos con respuestas del modelo sin etiquetar en el espacio de incrustaciones, identificando preferencias humanas consistentes y corrigiendo el sesgo de verbosidad sin reentrenamiento. Los experimentos muestran una mejor alineación humana, robustez frente a sesgos de presentación y estimaciones de confianza interpretables.