Senior SWE Bench представлен как новый бенчмарк, предназначенный для оценки возможностей в области программной инженерии через призму реалистично неопределённых задач по разработке новых функций.
Бенчмарк сосредоточен на оценке того, как модели справляются со сложными, неоднозначными требованиями, которые отражают реальные задачи инженерного уровня senior.