Коррекция позиционного смещения недостаточна для однопроходной сортировки внимания
Исследование изучает, позволяет ли коррекция позиционного смещения однопроходной сортировке внимания достичь производительности итеративных методов в языковых моделях с длинным контекстом. Эксперименты на моделях LLaMA-2 и YaRN-Llama-2 опровергают гипотезу о том, что одного только дебиасинга достаточно для устранения разрыва в производительности.