Un enfoque centrado en los datos mejora el razonamiento de contexto largo en modelos de lenguaje grandes, utilizando ocho conjuntos de datos curados con 14K ejemplos en tareas de recuperación, síntesis multi-evidencia y razonamiento. Al combinarse con entrenamiento GRPO basado mínimamente en resultados, logra ganancias promedio de +7.2 a +6.4 puntos en siete benchmarks, superando los conjuntos de entrenamiento RL previos, y mejora el rendimiento agénico en +4.8 y +7.0 puntos en GAIA y BrowseComp respectivamente.
arxiv
arXiv cs.CL
·
hace 1 h
·
fuente: hace 10 d
·
research
La receta de datos mejora el razonamiento de contexto largo en LLMs
Traducido del English → Español
Importancia 3/3
Supera un benchmark de un laboratorio puntero
arXiv cs.CL
Alibaba (Qwen)
AI agents
Reasoning models
Training data
Benchmarks
| Benchmark | Modelo | Puntuación |
|---|---|---|
| SWE-bench | Qwen3-4B | 7.2pts |
| BrowseComp | Qwen3-4B | 7pts |
| SWE-bench | Qwen3-30B-A3B | 6.4pts |
| GAIA | Qwen3-4B | 4.8pts |
| SWE-bench | Qwen3-8B | 3.2pts |