Голосование большинства подавляет ценности меньшинства: Расхождения аннотаторов на границе ненависти/оскорбления в HateXplain

Исследование показывает, что сводить расхождения аннотаторов к меткам большинства при аннотации языка вражды — не нейтрально, так как 42,6% всех расхождений сосредоточено именно на границе ненавители/оскорбления. Эта закономерность указывает на то, что аннотаторы применяют разные пороги для определения начала ненависти, создавая структурную проблему в определении ground truth.

42,6% расхождений аннотаторов в HateXplain происходит на границе ненавители/оскорбления (хи-квадрат = 135.199, df = 2, p < 0.0001).
Как hard-label BERT (Модель A), так и soft-label модели теряют 22 процентных пункта точности с согласованных постов (~80%) на расходящихся постах (~58%).
Модель с несколькими головами для каждого аннотатора (Модель C) расширяет разрыв в точности до 28 пунктов, снижая точность на расхождениях оскорбительного характера до 0.245.
Модель A демонстрирует значительно более высокую уверенность при ошибках на граничных случаях по сравнению с Моделью C (0.710 против 0.495), что означает, что стандартные метрики оценки не способны обнаружить этот сбой.
Три последующих вмешательства возрастающей сложности не смогли восстановить точность на границе.

Авторы утверждают, что голосование большинства представляет оспариваемое суждение как ground truth, из-за чего модели наследуют ложную уверенность. Они приходят к выводу, что необходимое вмешательство должно происходить на этапе проектирования аннотации, а не применяться после агрегации меток.