SC-GRPO utiliza la divergencia KL por token desde trayectorias autocondicionadas para ponderar gradientes en el aprendizaje por refuerzo. Supera a GRPO en un 8.1% y a DAPO en un 5.9% en tareas de matemáticas, código y agentes, con un rendimiento superior fuera de la distribución y mejores resultados que OPD.