В данной статье представлен ASALT — метод латерального переноса обучения в многоагентном обучении с подкреплением, который учитывает несоответствие размерностей пространства состояний между исходной и целевой областями. Подход использует адаптеры на уровне наблюдений и на уровне состояний для отображения входных данных в общее пространство эмбеддингов, что обеспечивает эффективный перенос знаний между гетерогенными средами.

  • ASALT включает как адаптеры на уровне наблюдений, так и на уровне состояний для обработки различных пространств наблюдений и глобальных состояний.
  • Экспериментальные результаты демонстрируют превосходную эффективность по выборке и глобальную доходность в кооперативных условиях по сравнению с существующими базовыми методами.
  • Метод смягчает проблему негативного переноса, которая часто возникает при переносе политик между областями с разными размерностями.
  • Эффективность зависит от степени несоответствия между исходной и целевой областями.

ASALT устраняет ограничение предыдущих подходов к переносу в MARL, требующих идентичных размерностей, что позволяет осуществлять более гибкий перенос стратегий в разнообразных многоагентных системах.