Данные рецепт улучшает долгосрочное мышление в больших языковых моделях

Центрированный на данных подход улучшает долгосрочное мышление в больших языковых моделях, используя восемь отобранных наборов данных с 14 тысячами примерами в задачах поиска, синтеза многочисленных доказательств и мышления. При сочетании с минимальным обучением на основе результатов GRPO, он достигает средних приростов на 7,2 до 6,4 баллов на семи бенчмарках, превосходя предыдущие наборы для обучения по методу RL, и улучшает агентную производительность на 4,8 и 7,0 баллов соответственно на GAIA и BrowseComp.

Бенчмарк	Модель	Результат
SWE-bench	Qwen3-4B	7.2pts
BrowseComp	Qwen3-4B	7pts
SWE-bench	Qwen3-30B-A3B	6.4pts
GAIA	Qwen3-4B	4.8pts
SWE-bench	Qwen3-8B	3.2pts

Бенчмарки