ASALT: Адаптивное выравнивание состояний для латерального переноса в многоагентном обучении с подкреплением

В данной статье представлен ASALT — метод, обеспечивающий латеральное обучение с переносом в многоагентном обучении с подкреплением за счёт учёта несоответствия размерностей пространства состояний между исходной и целевой областями. Подход использует адаптеры на уровне наблюдений и на уровне состояний для отображения входных данных в общее пространство эмбеддингов, что способствует эффективному переносу знаний между гетерогенными средами.

ASALT включает адаптеры на уровне наблюдений и на уровне состояний для отображения целевых наблюдений и глобальных состояний в общее пространство эмбеддингов.
Экспериментальные результаты показывают, что ASALT превосходит существующие базовые методы по эффективности выборки и глобальной награде в кооперативных сценариях.
Метод смягчает проблему негативного переноса — серьёзное препятствие при переносе политик между областями с различными пространствами наблюдений и действий.

ASALT позволяет более эффективно передавать стратегии между гетерогенными областями, где предыдущие методы требовали идентичных размерностей, тем самым решая проблему негативного переноса в многоагентных системах.