El Benchmark SWE-Pro Revela una Brecha Significativa Entre los LLM y la Optimización de Software Experta

El benchmark SWE-Pro aborda la falta de marcos de evaluación realistas para la optimización del rendimiento del software mediante la introducción de un conjunto de datos a nivel de repositorio derivado de 102 optimizaciones escritas por expertos. A diferencia de los benchmarks anteriores que simplifican en exceso las tareas, SWE-Pro empareja cada tarea con pruebas parametrizadas para evaluar el tiempo de ejecución, la memoria pico y el Uso de Memoria Ponderado por Tiempo bajo condiciones conscientes del ruido. El estudio revela que los Modelos de Lenguaje Actuales actuales luchan significativamente con estos requisitos complejos, mostrando ganancias de tiempo de ejecución insignificantes y optimizaciones de memoria casi inexistentes. En marcado contraste, las implementaciones expertas lograron una aceleración agregada de 15.5x y una reducción de memoria pico de 171.3x a través de las tareas del benchmark. Se observaron mejoras escritas por expertos en el 91.2% de las tareas para el tiempo de ejecución y en el 65.7% para la memoria pico. Estos hallazgos exponen una brecha sustancial entre las capacidades actuales de los LLM y las demandas de la ingeniería a nivel experto.