Редактирование вектора выхода снижает запоминание в языковых моделях
Новая методика, называемая редактированием вектора выхода, минимально изменяет векторы выхода нейронов MLP для подавления запомненных последовательностей в больших языковых моделях, достигая до 87,9% подавления в OLMo-7B. Этот подход превосходит нулевое изменение активаций нейронов в 2,7 раза и работает на четырех моделях с параметрами от 36 до 7B, при этом эффективность растет с увеличением размера модели и демонстрирует стабильную производительность при различных архитектурах.