¿SFT o RL-first para el entrenamiento del agente de herramientas de Qwen 3.5?

Un usuario pregunta si se sigue recomendando el ajuste fino supervisado (SFT) seguido de aprendizaje por refuerzo (RL) para entrenar agentes de Qwen 3.5 de 4B o 9B para el uso de múltiples herramientas, o si los enfoques solo con RL producen mejores resultados. La publicación también busca orientación sobre el diseño de recompensas y el manejo de la ejecución paralela de herramientas en flujos de trabajo de agentes.