Mitigación del sesgo de posición en Transformers mediante escalado de incrustaciones posicionales específicas por capa

Los investigadores introducen el escalado de incrustaciones posicionales específicas por capa (LPES) para abordar el problema del "perdido-en-el-medio" en modelos de lenguaje grandes, donde la información crítica en entradas de contexto largo a menudo está infrarrepresentada. Este método asigna factores de escalado distintos a cada capa de Transformer para lograr una distribución de atención más equilibrada sin requerir ajuste fino de parámetros ni aumentar la latencia de inferencia.

LPES utiliza un algoritmo genético que incorpora curvas de Bézier para seleccionar eficientemente los factores de escalado óptimos para cada capa, reduciendo significativamente el espacio de búsqueda.
El enfoque evita la alta latencia y las estrategias de escalado heurísticas subóptimas asociadas con los métodos existentes de incrustación posicional rotatoria multi-escala.
Experimentos extensos muestran mejoras consistentes en múltiples benchmarks de contexto largo, obteniendo hasta un 11.2% de ganancia en precisión en conjuntos de datos de recuperación de clave-valor.

Esta técnica mitiga eficazmente el sesgo de atención posicional en Transformers, ofreciendo una solución escalable para mejorar la retención de información en escenarios de contexto largo sin comprometer la velocidad de inferencia.