Destilando Transformers en Recurrent Transformers para Memoria Eficiente
Un nuevo método de destilación transfiere la estrategia de compresión de observaciones de los transformers de historial completo a modelos recurrentes. Al entrenar un modelo maestro para comprimir las historias de observaciones en cuellos de botella de tamaño fijo, el enfoque alinea la memoria del estudiante con la compresión del maestro. Esto permite que los recurrent transformers logren rendimiento cercano al de historial completo con complejidad de tiempo lineal, haciéndolos viables para aplicaciones de robótica a largo plazo.