Снижение позиционной предвзятости в трансформерах посредством масштабирования позиционных эмбеддингов для каждого слоя

Исследователи предлагают масштабирование позиционных эмбеддингов для каждого слоя (LPES) для решения проблемы «потери в середине» в больших языковых моделях, когда критически важная информация в длинных контекстах часто недопредставлена. Этот метод назначает различные коэффициенты масштабирования каждому слою трансформера для достижения более сбалансированного распределения внимания без необходимости тонкой настройки параметров или увеличения задержки вывода.

LPES использует генетический алгоритм, включающий кривые Безье, для эффективного выбора оптимальных коэффициентов масштабирования для каждого слоя при значительном сокращении пространства поиска.
Подход избегает высокой задержки и субоптимальных ручных стратегий масштабирования, связанных с существующими методами многомасштабного ротационного позиционного кодирования.
Масштабные эксперименты демонстрируют последовательное улучшение результатов на множестве бенчмарков для длинных контекстов, обеспечивая прирост точности до 11,2% на наборах данных для извлечения ключей и значений.

Эта техника эффективно снижает позиционную предвзятость внимания в трансформерах, предлагая масштабируемое решение для улучшения удержания информации в сценариях с длинными контекстами без ущерба для скорости вывода.