El ajuste de prueba y refinamiento mejora el rendimiento de los agentes de codificación
Un nuevo método llamado ajuste de prueba y refinamiento utiliza sondas sintéticas de corrección de errores para mejorar iterativamente los archivos de guía del repositorio con llamadas LLM de un solo disparo, sin bucles de agente ni uso de herramientas. En SWE-bench Verified, alcanza una tasa media de resolución del 33,0 % —14,5 puntos porcentuales más alta que la base de conocimientos estática inicial—, lo que muestra una cobertura mejorada en lugar de una precisión de parche. El método permite a los agentes utilizar presupuestos de pasos más grandes de manera efectiva, y el rendimiento se mantiene estable entre modelos cuando la salida diagnóstica es suficiente.