Senior SWE Bench는 현실적으로 불명확한 기능 작업의 관점에서 소프트웨어 엔지니어링 능력을 평가하도록 설계된 새로운 벤치마크로 소개되었습니다.
이 벤치마크는 실제 시니어 수준 엔지니어링 과제를 반영하는 복잡하고 모호한 요구사항을 모델이 어떻게 처리하는지 평가하는 데 중점을 둡니다.
Senior SWE Bench는 현실적으로 불명확한 기능 작업의 관점에서 소프트웨어 엔지니어링 능력을 평가하도록 설계된 새로운 벤치마크로 소개되었습니다.
이 벤치마크는 실제 시니어 수준 엔지니어링 과제를 반영하는 복잡하고 모호한 요구사항을 모델이 어떻게 처리하는지 평가하는 데 중점을 둡니다.