Управление памятью для внимания к длинному контексту: предварительное исследование редактируемой локальной памяти запроса

В данном исследовании изучается внимание к длинному контексту с управлением памятью путем разделения быстрого рекуррентного или разреженного ядра на явно редактируемые слоты локальной памяти запроса и разреженное резервное решение во время запроса. Исследование направлено на устранение ограничений существующих методов линейного, рекуррентного и разреженного внимания в управлении тем, когда факты должны быть записаны, перезаписаны, защищены или отброшены.

Чисто фиксированное состояние или чисто разреженные методы не справляются с конкретными случаями перезаписи, версионности, антизагрязнения или отсутствия сигнала записи, тогда как гибридный подход охватывает оба пути.
Стресс-тест механизма на 2 097 152 токена достиг средней точности 50/50 при использовании от 2 до 132 активных чанков.
Минимальная причинная модель событийных токенов с 2,74 млн параметров достигла точности 595/600 при легкой supervise записи, продемонстрировав обучаемость, независимую от масштаба.
Шестисемейный мост с замороженным скрытым состоянием достиг точности управляемых указателей 1079/1080, но опирался на целочисленные идентификаторы ключей, предоставленные генератором, а не на разрешение открытых текстовых сущностей.
Локальные диагностики RULER 4K вне рейтинговых таблиц остались близкими к полному контексту, в то время как подмножество LongBench v1 16K из 33 записей показало, что наивный лексический отбор не является общим решением.

Данные свидетельствуют о том, что контролируемый жизненный цикл слотов осуществим и разреженное резервное решение необходимо, когда записи лишены сигналов будущих запросов, но обученный отбор в открытых доменах остается основным архитектурным узким местом.