La receta de datos mejora el razonamiento de contexto largo en LLMs

Un enfoque centrado en los datos mejora el razonamiento de contexto largo en modelos de lenguaje grandes, utilizando ocho conjuntos de datos curados con 14K ejemplos en tareas de recuperación, síntesis multi-evidencia y razonamiento. Al combinarse con entrenamiento GRPO basado mínimamente en resultados, logra ganancias promedio de +7.2 a +6.4 puntos en siete benchmarks, superando los conjuntos de entrenamiento RL previos, y mejora el rendimiento agénico en +4.8 y +7.0 puntos en GAIA y BrowseComp respectivamente.

Benchmark	Modelo	Puntuación
SWE-bench	Qwen3-4B	7.2pts
BrowseComp	Qwen3-4B	7pts
SWE-bench	Qwen3-30B-A3B	6.4pts
GAIA	Qwen3-4B	4.8pts
SWE-bench	Qwen3-8B	3.2pts

Benchmarks