Entrenamiento de LLMs para agentes de ciclo de vida largo mediante generalización interdominio
Un nuevo marco permite a los modelos de lenguaje grandes aprender 'Conecta los puntos' utilizando aprendizaje por refuerzo con secuencias de rollout largas. El método incluye tareas y entornos adaptados para fomentar el desarrollo de meta-capacidades, mostrando una fuerte generalización interdominio y rendimiento en configuraciones fuera de distribución. Las implementaciones están disponibles en https://github.com/agentscope-ai/Trinity-RFT/tree/research/cod/examples/research_cod.