В данном исследовании рассматривается проблема игнорирования обнаружения фактических ошибок в текстах, написанных человеком, путем выделения таксономии ошибок из исправлений в газетных статьях. Выявлены категории, такие как неверное использование кандзи, отсутствующие в текущих бенчмарках галлюцинаций. Авторы оценивают базовые большие языковые модели на синтезированных тестовых случаях и реальных исправлениях для оценки их производительности в этой конкретной задаче.

  • Таксономия фактических ошибок, вызванных человеком, была получена путем анализа исправлений в газетных статьях.
  • Характерные категории ошибок, такие как неверное использование кандзи и ошибки в классификаторах числительных, были выявлены как отличные от галлюцинаций больших языковых моделей.
  • Высокопроизводительные модели, такие как GPT-5.4, достигли только word-level F1-меры на уровне 52% на синтетических оценочных данных.
  • Экспериментальные результаты подчеркивают значительную сложность обнаружения фактических ошибок в текстах, написанных человеком, по сравнению с существующими бенчмарками.