Диагностика для выбора политики в МОРЛ
Мы предлагаем диагностический процесс для выявления поведенческих вариаций в политиках многокритериального обучения с подкреплением. Метод выявляет различия в траекториях политики за пределами ожидаемых возвратов, предоставляя количественные и визуальные инструменты для анализа политики. Проверен на сетевых мирах и масштабирован на задачи непрерывного управления, эффективно выявляет поведенческую разнообразность при росте сложности.