В данной статье представлен ASALT — метод, обеспечивающий латеральное обучение с переносом в многоагентном обучении с подкреплением за счёт учёта несоответствия размерностей пространства состояний между исходной и целевой областями. Подход использует адаптеры на уровне наблюдений и на уровне состояний для отображения входных данных в общее пространство эмбеддингов, что способствует эффективному переносу знаний между гетерогенными средами.
- ASALT включает адаптеры на уровне наблюдений и на уровне состояний для отображения целевых наблюдений и глобальных состояний в общее пространство эмбеддингов.
- Экспериментальные результаты показывают, что ASALT превосходит существующие базовые методы по эффективности выборки и глобальной награде в кооперативных сценариях.
- Метод смягчает проблему негативного переноса — серьёзное препятствие при переносе политик между областями с различными пространствами наблюдений и действий.
ASALT позволяет более эффективно передавать стратегии между гетерогенными областями, где предыдущие методы требовали идентичных размерностей, тем самым решая проблему негативного переноса в многоагентных системах.