Новая методика сжатия передает стратегию сжатия наблюдений полных историй трансформеров в рекуррентные модели. Обучая учителя модели сжимать истории наблюдений в фиксированные размеры, метод синхронизирует память ученика с сжатием учителя. Это позволяет рекуррентным трансформерам достигать производительности, близкой к полному использованию истории наблюдений, при линейной сложности, что делает их применимыми для задач робототехники с длинными горизонтами.
Сжатие трансформеров в рекуррентные трансформеры для эффективного использования памяти
Переведено с English → Русский