Un enfoque centrado en los datos mejora el razonamiento de contexto largo en modelos de lenguaje grandes, utilizando ocho conjuntos de datos curados con 14K ejemplos en tareas de recuperación, síntesis multi-evidencia y razonamiento. Al combinarse con entrenamiento GRPO basado mínimamente en resultados, logra ganancias promedio de +7.2 a +6.4 puntos en siete benchmarks, superando los conjuntos de entrenamiento RL previos, y mejora el rendimiento agénico en +4.8 y +7.0 puntos en GAIA y BrowseComp respectivamente.