В данном исследовании воспроизводятся результаты метода AlphaEdit — проекции с ограничением в нуль-пространстве для редактирования знаний в языковых моделях, а также расширяется оценка на более новые архитектуры и более длинные горизонты последовательного редактирования. Авторы подтверждают, что AlphaEdit работает так, как заявлено в рамках его первоначальной области применения, но выявляют значительные ограничения в отношении обобщения и масштабируемости.
- Исследование успешно воспроизвело метрики AlphaEdit на моделях LLaMA3, GPT2-XL и GPT-J, хотя и обнаружило расхождение в заявленных метриках беглости и согласованности.
- Расширение применения AlphaEdit на новые семейства моделей показывает, что его преимущество не обобщается равномерно из-за нарушения архитектурных допущений в парадигме «найти-затем-отредактировать» (locate-then-edit).
- Производительность ухудшается по мере увеличения количества последовательных редактирований, значительно превышающих первоначальный масштаб, что указывает на то, что защита от катастрофического забывания, обеспечиваемая проекцией в нуль-пространство, имеет свои пределы.
- Оценка на дополнительных бенчмарках (BoolQ, HellaSwag и XSTest) показывает, что крупномасштабное последовательное редактирование ухудшает как общую компетенцию в downstream-задачах, так и поведение отказа, связанное с безопасностью.
Результаты демонстрируют, что, хотя AlphaEdit работает по замыслу в своем первоначальном контексте, ее основные теоретические гарантии чувствительны к архитектуре модели и масштабу редактирования, что имеет практические последствия для развертывания.