Pareto Q-Learning с машинами вознаграждений

PQLRM — это алгоритм многокритериальной робастной оптимизации, который объединяет Pareto Q-Learning с машинами вознаграждений для обработки не-марковских вознаграждений. Он сходится быстрее, чем базовый PQL на перекрёстных МДП, и генерирует парето-оптимальные политики за пределами возможностей QRM.