Представляем корпусы Hlava Cor и Hlava AD: Вариации человеческих оценок в задачах кореференции и дискурсивных отношений
Исследователи создали два новых корпуса, Hlava Cor и Hlava AD, для изучения вариаций человеческого восприятия связности текста. Эти ресурсы содержат множественные аннотации чешских текстов вместе с объяснениями аннотаторов их выбора. Первый корпус, Hlava Cor, состоит из 1024 контекстов, аннотированных тремя людьми, чтобы зафиксировать различия в идентификации кореференции. Он охватывает местоимения, полные именные группы и анафорические наречия в различных типах текстов и грамматико-семантических категориях. Второй корпус, Hlava AD, включает 512 контекстов, аннотированных пятью аннотаторами, с фокусом на дискурсивных отношениях в атрибутивных и неатрибутивных конструкциях. Оба корпуса достигают меж-аннотаторского согласия примерно на уровне 60–65 процентов. Анализ показывает, что более низкое согласие по кореференции коррелирует с несогласием автоматических моделей, что указывает на большую неоднозначность. Комментарии аннотаторов дополнительно подчеркивают различные уровни уверенности и индивидуальные стратегии чтения.