Офф-политический анализ для вознаграждений MNAR в МДП

Мы предлагаем метод офф-политического анализа для конечногоризонтных МДП с вознаграждениями, отсутствующими не случайно. Наш подход использует модель вероятности, зависящую от вознаграждения, и мостовую функцию для восстановления условных средних вознаграждений без моделирования механизма MNAR, обеспечивая согласованность и границы ошибки на конечных выборках. Эксперименты на симулированных и данных MIMIC-III Sepsis показывают превосходную производительность по сравнению с существующими методами.