Коррекция позиционного смещения недостаточна для однопроходной сортировки внимания

Исследование изучает, позволяет ли коррекция позиционного смещения однопроходной сортировке внимания достичь производительности итеративных методов в языковых моделях с длинным контекстом. Эксперименты на моделях LLaMA-2 и YaRN-Llama-2 опровергают гипотезу о том, что одного только дебиасинга достаточно для устранения разрыва в производительности.

На модели LLaMA-2-7B-32K-Instruct дебиасинг обеспечил идентичную точность удержания (94.83%) по сравнению с некалиброванной однопроходной сортировкой.
На YaRN-Llama-2-7b-64k дебиасинг улучшил точность на 8.67 процентных пункта, но всё равно отставал от итеративной сортировки на 14.84pp.

Исправленный метод закрыл лишь 37% разрыва в производительности между подходами однопроходной и итеративной сортировки.

Результаты указывают на то, что коррекция позиционного смещения недостаточна для соответствия уровню итеративной сортировки, предполагая, что повторная перестановка даёт дополнительные преимущества помимо коррекции смещения.