Un usuario pregunta si se sigue recomendando el ajuste fino supervisado (SFT) seguido de aprendizaje por refuerzo (RL) para entrenar agentes de Qwen 3.5 de 4B o 9B para el uso de múltiples herramientas, o si los enfoques solo con RL producen mejores resultados. La publicación también busca orientación sobre el diseño de recompensas y el manejo de la ejecución paralela de herramientas en flujos de trabajo de agentes.