P4IR: El aprendizaje por refuerzo mejora los sistemas automatizados de cumplimiento de código

Un nuevo marco llamado P4IR aborda el problema de las reglas alucinadas en sistemas automatizados de cumplimiento de código basados en modelos de lenguaje grandes. Este enfoque de dos etapas primero emplea ajuste fino supervisado para inyectar conocimiento del dominio en el modelo. Luego utiliza Group Relative Policy Optimization para mejorar la precisión de los esqueletos de código de alto nivel generados. El método logró reducciones de hasta 23,8% en la distancia de edición de árboles y 38,6% en la distancia de Levenshtein a nivel de token en comparación con las líneas base de ajuste fino supervisado. El análisis comparativo muestra que P4IR supera a modelos líderes como Claude Opus, GPT-5.2 y Qwen-3-Max en configuraciones zero-shot. Además, la etapa de aprendizaje por refuerzo produjo una reducción estadísticamente significativa en falsos positivos. Esta combinación de técnicas ofrece un camino hacia un cumplimiento de código automatizado más confiable.