В этой статье предложена интерпретация временных деревьев поведения с помощью Reward-Petri-Net для обучения с вознаграждением. В статье временные деревья поведения переводятся в сети Петри, присваиваются вознаграждения на основе структурных ограничений, определённых в линейной временной логике, что позволяет эффективно обучать в сложных задачах с длинными горизонтами, где обычное обучение с вознаграждением не справляется.
Интерпретация временных деревьев поведения с помощью Reward-Petri-Net
Переведено с English → Русский