SFT или RL-первый для обучения агента Qwen 3.5 с использованием инструментов?
Пользователь спрашивает, рекомендуется ли все еще последовательное применение надзирательного мелкого настройки (SFT) за которым следует обучение с помощью реверсной связи (RL), для обучения агентов Qwen 3.5 4B или 9B для многократного использования инструментов, или же более эффективны подходы на основе только RL. В посте также ищется руководство по проектированию вознаграждения и обработке параллельного выполнения инструментов в рабочих процессах агентов.