SC-GRPO utiliza la divergencia KL por token desde trayectorias autocondicionadas para ponderar gradientes en el aprendizaje por refuerzo. Supera a GRPO en un 8.1% y a DAPO en un 5.9% en tareas de matemáticas, código y agentes, con un rendimiento superior fuera de la distribución y mejores resultados que OPD.
arxiv
arXiv cs.AI
·
hace 1 h
·
fuente: hace 11 d
·
research
Asignación de crédito autocondicionada para RL con recompensas verificables
Traducido del English → Español
Importancia 3/3
Supera un benchmark de un laboratorio puntero
Nueva función frente a los líderes
arXiv cs.AI
OpenAI
Google DeepMind
Meta AI
Evaluation & benchmarks
Reasoning models
Training methods