Los LLMs juzgan peor de lo que generan en QA con contexto
Un estudio desafía la suposición de que los modelos de lenguaje grandes evalúan mejor sus propias salidas de lo que las generan, encontrando que la precisión de la generación supera a la autoevaluación en tres de los cuatro benchmarks probados. La investigación utiliza un entorno controlado de QA con contexto para aislar el rendimiento de evaluación de los confusores del conocimiento paramétrico.