ASALT: Адаптивное выравнивание состояний для латерального переноса в многоагентном обучении с подкреплением

В данной статье представлен ASALT — метод латерального переноса обучения в многоагентном обучении с подкреплением, который учитывает несоответствие размерностей пространства состояний между исходной и целевой областями. Подход использует адаптеры на уровне наблюдений и на уровне состояний для отображения входных данных в общее пространство эмбеддингов, что обеспечивает эффективный перенос знаний между гетерогенными средами.

ASALT включает как адаптеры на уровне наблюдений, так и на уровне состояний для обработки различных пространств наблюдений и глобальных состояний.
Экспериментальные результаты демонстрируют превосходную эффективность по выборке и глобальную доходность в кооперативных условиях по сравнению с существующими базовыми методами.
Метод смягчает проблему негативного переноса, которая часто возникает при переносе политик между областями с разными размерностями.
Эффективность зависит от степени несоответствия между исходной и целевой областями.

ASALT устраняет ограничение предыдущих подходов к переносу в MARL, требующих идентичных размерностей, что позволяет осуществлять более гибкий перенос стратегий в разнообразных многоагентных системах.