P4IR, un marco de dos etapas, utiliza ajuste fino supervisado y Optimización de Política Relativa de Grupo para mejorar los sistemas automatizados de cumplimiento de código basados en modelos de lenguaje grandes. Reduce las distancias de Levenshtein a nivel de árbol y de token hasta en un 23,8% y un 38,6%, respectivamente, superando a LLMs líderes como Claude Opus, GPT-5.2 y GLM-4.7 en configuraciones zero-shot con prompting few-shot, y reduce los falsos positivos en un margen pequeño pero estadísticamente significativo.