La corrección del sesgo de posición es insuficiente para el ordenamiento por atención de un solo pase
El estudio investiga si corregir el sesgo de posición permite que el ordenamiento por atención de un solo pase iguale el rendimiento de los métodos iterativos en modelos de lenguaje de contexto largo. Los experimentos en los modelos LLaMA-2 y YaRN-Llama-2 refutan la hipótesis de que la desviación del sesgo por sí sola es suficiente para cerrar la brecha de rendimiento.