Pareto Q-Learning с машинами вознаграждений
PQLRM — это алгоритм многокритериальной робастной оптимизации, который объединяет Pareto Q-Learning с Reward Machines для обработки не-марковских вознаграждений. Он сходится быстрее, чем простой PQL на кросс-продукт MDP, и генерирует парето-оптимальные стратегии за пределами возможностей QRM.