Исследование показывает, что сводить расхождения аннотаторов к меткам большинства при аннотации языка вражды — не нейтрально, так как 42,6% всех расхождений сосредоточено именно на границе ненавители/оскорбления. Эта закономерность указывает на то, что аннотаторы применяют разные пороги для определения начала ненависти, создавая структурную проблему в определении ground truth.
- 42,6% расхождений аннотаторов в HateXplain происходит на границе ненавители/оскорбления (хи-квадрат = 135.199, df = 2, p < 0.0001).
- Как hard-label BERT (Модель A), так и soft-label модели теряют 22 процентных пункта точности с согласованных постов (~80%) на расходящихся постах (~58%).
- Модель с несколькими головами для каждого аннотатора (Модель C) расширяет разрыв в точности до 28 пунктов, снижая точность на расхождениях оскорбительного характера до 0.245.
- Модель A демонстрирует значительно более высокую уверенность при ошибках на граничных случаях по сравнению с Моделью C (0.710 против 0.495), что означает, что стандартные метрики оценки не способны обнаружить этот сбой.
- Три последующих вмешательства возрастающей сложности не смогли восстановить точность на границе.
Авторы утверждают, что голосование большинства представляет оспариваемое суждение как ground truth, из-за чего модели наследуют ложную уверенность. Они приходят к выводу, что необходимое вмешательство должно происходить на этапе проектирования аннотации, а не применяться после агрегации меток.