Los LLMs juzgan peor de lo que generan en QA con contexto

Un estudio desafía la suposición de que los modelos de lenguaje grandes evalúan mejor sus propias salidas de lo que las generan, encontrando que la precisión de la generación supera a la autoevaluación en tres de los cuatro benchmarks probados. La investigación utiliza un entorno controlado de QA con contexto para aislar el rendimiento de evaluación de los confusores del conocimiento paramétrico.

En SQuAD 2.0, DROP, HotpotQA y MuSiQue, los modelos generaron respuestas con mayor precisión que las juzgaron, con la excepción de MuSiQue multi-hop.
El análisis de atención revela que durante la evaluación, los modelos prestan atención a los pasajes del contexto entre 3 y 5 veces menos que durante la generación y apenas leen la respuesta candidata.
Los experimentos de ajuste fino con LoRA confirman que esta asimetría no es un artefacto del entrenamiento; el ajuste fino de la generación induce una sobreaceptación, mientras que el ajuste fino de la evaluación degrada el rendimiento de la generación.

Estos hallazgos desafían supuestos centrales en los pipelines de autoevaluación, sugiriendo que los métodos actuales pueden estar fundamentalmente defectuosos debido a cómo los modelos procesan la información durante el juicio frente a la generación.