Este artículo presenta una interpretación de Árboles de Comportamiento Temporales (TBT) mediante Redes de Petri con recompensas para el aprendizaje por refuerzo. Traduce los TBTs a Redes de Petri, asignando recompensas basadas en restricciones estructurales definidas en Lógica Temporal Lineal, lo que permite un aprendizaje efectivo en tareas robóticas complejas y de largo plazo donde el RL estándar falla.