El estudio demuestra que colapsar el desacuerdo entre anotadores en etiquetas de voto mayoritario durante la anotación de discurso de odio no es neutral, ya que el 42.6% de todo el desacuerdo se concentra específicamente en el límite entre odio/ofensivo. Este patrón indica que los anotadores aplican diferentes umbrales para determinar dónde comienza el odio, creando un problema estructural en cómo se define la verdad fundamental.
- El 42.6% del desacuerdo de los anotadores en HateXplain ocurre en el límite entre odio/ofensivo (chi-cuadrado = 135.199, gl = 2, p < 0.0001).
- Tanto BERT de etiquetas duras (Modelo A) como los modelos de etiquetas suaves pierden 22 puntos porcentuales en precisión desde los posts de acuerdo (~80%) hasta los posts de desacuerdo (~58%).
- Un modelo multi-cabeza por anotador (Modelo C) amplía la brecha de precisión a 28 puntos, colapsando la precisión del desacuerdo ofensivo a 0.245.
- El Modelo A expresa una confianza significativamente mayor en los errores de casos límite que el Modelo C (0.710 vs. 0.495), lo que significa que las métricas de evaluación estándar fallan en detectar este fallo.
- Las tres intervenciones downstream de sofisticación creciente fallan todas en recuperar la precisión del límite.
Los autores argumentan que el voto mayoritario presenta un juicio controvertido como verdad fundamental, haciendo que los modelos hereden una certeza falsa. Concluyen que la intervención necesaria debe estar en la fase superior del diseño de anotación en lugar de aplicarse después de la agregación de etiquetas.