Слепая оценка 55 LLM: Смещение в пользу моделей одного семейства статистически значимо
Открытая оценка, включавшая 55 моделей от 11 семейств разработчиков, показала, что большие языковые модели демонстрируют статистически значимое смещение в пользу своих же моделей при слепой оценке друг друга. Среди 22 254 действительных суждений каждое семейство, имевшее достаточный объем данных, проявляло тенденцию оценивать своих представителей иначе, чем модели других семейств.