arxiv arXiv cs.AI · hace 1 h · fuente: hace 11 d · research

Asignación de crédito autocondicionada para RL con recompensas verificables

Traducido del English → Español

SC-GRPO utiliza la divergencia KL por token desde trayectorias autocondicionadas para ponderar gradientes en el aprendizaje por refuerzo. Supera a GRPO en un 8.1% y a DAPO en un 5.9% en tareas de matemáticas, código y agentes, con un rendimiento superior fuera de la distribución y mejores resultados que OPD.

Importancia 3/3 Supera un benchmark de un laboratorio puntero Nueva función frente a los líderes arXiv cs.AI OpenAI Google DeepMind Meta AI Evaluation & benchmarks Reasoning models Training methods

Benchmarks

Benchmark	Modelo	Puntuación
GSM8K	SC-GRPO	8.1%
GSM8K	DAPO	5.9%
GSM8K	OPD	—

Leer original