Исследователи предлагают масштабирование позиционных эмбеддингов для каждого слоя (LPES) для решения проблемы «потери в середине» в больших языковых моделях, когда критически важная информация в длинных контекстах часто недопредставлена. Этот метод назначает различные коэффициенты масштабирования каждому слою трансформера для достижения более сбалансированного распределения внимания без необходимости тонкой настройки параметров или увеличения задержки вывода.

  • LPES использует генетический алгоритм, включающий кривые Безье, для эффективного выбора оптимальных коэффициентов масштабирования для каждого слоя при значительном сокращении пространства поиска.
  • Подход избегает высокой задержки и субоптимальных ручных стратегий масштабирования, связанных с существующими методами многомасштабного ротационного позиционного кодирования.
  • Масштабные эксперименты демонстрируют последовательное улучшение результатов на множестве бенчмарков для длинных контекстов, обеспечивая прирост точности до 11,2% на наборах данных для извлечения ключей и значений.

Эта техника эффективно снижает позиционную предвзятость внимания в трансформерах, предлагая масштабируемое решение для улучшения удержания информации в сценариях с длинными контекстами без ущерба для скорости вывода.