Открытая оценка, включавшая 55 моделей от 11 семейств разработчиков, показала, что большие языковые модели демонстрируют статистически значимое смещение в пользу своих же моделей при слепой оценке друг друга. Среди 22 254 действительных суждений каждое семейство, имевшее достаточный объем данных, проявляло тенденцию оценивать своих представителей иначе, чем модели других семейств.
- Оценщики Qwen отдавали предпочтение другим моделям Qwen на +0.91 балла по шкале от 0 до 10.
- Оценщики Mistral снижали оценку другим моделям Mistral на -1.02, что является наибольшим абсолютным смещением из наблюдавшихся.
- Google и Meta показали отрицательные смещения в размере -0.59 и -0.68 соответственно.
- xAI, Anthropic, MiniMax и OpenAI проявили положительное смещение в пользу своих моделей в диапазоне от +0.23 до +0.75.
Исследование подчеркивает, что сводные рейтинги являются вводящими в заблуждение, поскольку в различных категориях лидируют шесть разных моделей, и предлагает, чтобы будущие оценки привязывали суждения к эталонным значениям там, где это возможно.