Interpretación de Árboles de Comportamiento Temporales mediante Redes de Petri con Recompensas
Este artículo presenta una interpretación de Árboles de Comportamiento Temporales (TBT) mediante Redes de Petri con recompensas para el aprendizaje por refuerzo. Traduce los TBTs a Redes de Petri, asignando recompensas basadas en restricciones estructurales definidas en Lógica Temporal Lineal, lo que permite un aprendizaje efectivo en tareas robóticas complejas y de largo plazo donde el RL estándar falla.