Центрированный на данных подход улучшает долгосрочное мышление в больших языковых моделях, используя восемь отобранных наборов данных с 14 тысячами примерами в задачах поиска, синтеза многочисленных доказательств и мышления. При сочетании с минимальным обучением на основе результатов GRPO, он достигает средних приростов на 7,2 до 6,4 баллов на семи бенчмарках, превосходя предыдущие наборы для обучения по методу RL, и улучшает агентную производительность на 4,8 и 7,0 баллов соответственно на GAIA и BrowseComp.