Отсутствие самопредпочтения при редактировании моделей при настоящем авторстве

Проверка на четырех моделях IFEval показывает отсутствие обнаружимого самопредпочтения в больших языковых моделях при редактировании собственного текста. Авторы отклоняют проверенные хорошие правки с теми же показателями, что и свежие модели, с разницей в -5,1 процентных пункта (95% доверительный интервал [-12,9; +2,7]). Когда авторы отклоняют исправления, 97% причин связаны с обнаружением недостатков, а не с предпочтения.

Бенчмарки