Este estudio aborda la negligencia en la detección de errores factuales en textos escritos por humanos mediante la extracción de una taxonomía de errores a partir de correcciones de artículos periodísticos, revelando categorías como las malconversiones de kanji que están ausentes en los benchmarks actuales de alucinación. Los autores evalúan modelos de lenguaje grandes estándar en casos de prueba sintetizados y correcciones reales para evaluar su rendimiento en esta tarea específica.
- Se derivó una taxonomía de errores factuales inducidos por humanos a partir del análisis de correcciones de artículos periodísticos.
- Se identificaron categorías de errores características, como las malconversiones de kanji y los errores de clasificadores numéricos, como distintas de las alucinaciones de LLM.
- Modelos de alto rendimiento como GPT-5.4 lograron solo una puntuación F1 a nivel de palabra de 52% en datos de evaluación sintéticos.
- Los resultados experimentales destacan la dificultad significativa de detectar errores factuales en textos escritos por humanos en comparación con los benchmarks existentes.