Mitigación del sesgo de posición en Transformers mediante escalado de incrustaciones posicionales específicas por capa
Los investigadores introducen el escalado de incrustaciones posicionales específicas por capa (LPES) para abordar el problema del "perdido-en-el-medio" en modelos de lenguaje grandes, donde la información crítica en entradas de contexto largo a menudo está infrarrepresentada. Este método asigna factores de escalado distintos a cada capa de Transformer para lograr una distribución de atención más equilibrada sin requerir ajuste fino de parámetros ni aumentar la latencia de inferencia.