Центрированный на данных подход улучшает долгосрочное мышление в больших языковых моделях, используя восемь отобранных наборов данных с 14 тысячами примерами в задачах поиска, синтеза многоуровневых доказательств и мышления. При сочетании с минимальным обучением на основе результатов GRPO достигается средний рост на 7,2 до 6,4 баллов на семи бенчмарках, превосходя предыдущие наборы обучения по релевантности, и улучшает агентную производительность на 4,8 и 7,0 баллов соответственно на GAIA и BrowseComp.
arxiv
arXiv cs.CL
·
7 д назад
·
research
Данные рецептура повышает долгосрочное мышление в больших языковых моделях
Переведено с English → Русский
Важность 3/3
Обходит бенчмарк топ-лаборатории
arXiv cs.CL
Alibaba (Qwen)
AI agents
Reasoning models
Training data
Бенчмарки
| Бенчмарк | Модель | Результат |
|---|---|---|
| SWE-bench | Qwen3-4B | 7.2pts |
| BrowseComp | Qwen3-4B | 7pts |
| SWE-bench | Qwen3-30B-A3B | 6.4pts |
| GAIA | Qwen3-4B | 4.8pts |
| SWE-bench | Qwen3-8B | 3.2pts |