Senior SWE Bench 被介绍为一个全新的基准测试,旨在通过真实场景中需求不明确的功能开发任务来评估软件工程能力。

该基准测试侧重于评估模型如何处理复杂且模糊的需求,这些需求反映了现实世界中高级别工程师面临的挑战。