Presentación de los corpus Hlava Cor y Hlava AD: Variación humana en la coreferencia y las relaciones discursivas

Los investigadores han creado dos nuevos corpus, Hlava Cor y Hlava AD, para explorar la variación humana en la comprensión de la coherencia textual. Estos recursos contienen múltiples anotaciones de textos checos junto con las explicaciones de los anotadores sobre sus elecciones. El primer corpus, Hlava Cor, consta de 1,024 contextos anotados por tres personas para capturar las diferencias en la identificación de la coreferencia. Cubre pronombres, sintagmas nominales completos y adverbios anafóricos a través de varios tipos de texto y categorías gramaticales-semánticas. El segundo corpus, Hlava AD, comprende 512 contextos anotados por cinco anotadores centrados en las relaciones discursivas en construcciones atributivas y no atributivas. Ambos corpus logran un acuerdo interanotador de aproximadamente el 60-65 por ciento. El análisis revela que un menor acuerdo en la coreferencia se correlaciona con el desacuerdo de los modelos automáticos, lo que indica mayor ambigüedad. Los comentarios de los anotadores destacan además los distintos niveles de confianza y las estrategias individuales de lectura.