Un nuevo mecanismo de atención, Representación Adaptativa a la Distancia (DAR), asigna representaciones más ricas a tokens cercanos y dimensiones reducidas a los distantes. Este enfoque iguala el rendimiento de dimensión completa en múltiples escalas de modelo y ajuste fino, superando la reducción uniforme de dimensionalidad.
Representación adaptativa a la distancia para atención
Traducido del English → Español