Единая кausal-оригин топология для сдвигов распределения в RL
Эта статья вводит единую кausal-оригин топологию, которая классифицирует сдвиги распределения в репликационном обучении на внутренние, агент-ориентированные и внешние, среда-ориентированные источники. Она объединяет обобщение ID/OOD и непостоянные ситуации, представляя сдвиги как структурированные изменения в процессе взаимодействия агента и среды, используя разложение POMDP и подход с смещённой границей времени.