Слепая оценка 55 LLM: Смещение в пользу моделей одного семейства статистически значимо

Открытая оценка, включавшая 55 моделей от 11 семейств разработчиков, показала, что большие языковые модели демонстрируют статистически значимое смещение в пользу своих же моделей при слепой оценке друг друга. Среди 22 254 действительных суждений каждое семейство, имевшее достаточный объем данных, проявляло тенденцию оценивать своих представителей иначе, чем модели других семейств.

Оценщики Qwen отдавали предпочтение другим моделям Qwen на +0.91 балла по шкале от 0 до 10.
Оценщики Mistral снижали оценку другим моделям Mistral на -1.02, что является наибольшим абсолютным смещением из наблюдавшихся.
Google и Meta показали отрицательные смещения в размере -0.59 и -0.68 соответственно.
xAI, Anthropic, MiniMax и OpenAI проявили положительное смещение в пользу своих моделей в диапазоне от +0.23 до +0.75.

Исследование подчеркивает, что сводные рейтинги являются вводящими в заблуждение, поскольку в различных категориях лидируют шесть разных моделей, и предлагает, чтобы будущие оценки привязывали суждения к эталонным значениям там, где это возможно.