Снижение позиционной предвзятости в трансформерах посредством масштабирования позиционных эмбеддингов для каждого слоя
Исследователи предлагают масштабирование позиционных эмбеддингов для каждого слоя (LPES) для решения проблемы «потери в середине» в больших языковых моделях, когда критически важная информация в длинных контекстах часто недопредставлена. Этот метод назначает различные коэффициенты масштабирования каждому слою трансформера для достижения более сбалансированного распределения внимания без необходимости тонкой настройки параметров или увеличения задержки вывода.