Исследование показывает, что скрытые состояния декодерных языковых моделей позволяют восстановить входные данные

Данная работа исследует инверсию декодерных языковых моделей путем восстановления исходных последовательностей входных токенов из их скрытых состояний последнего слоя с помощью непрерывной оптимизации в пространстве эмбеддингов.

Метод использует мягкий прокси в непрерывном пространстве, фиксируя токены только в конце внутреннего цикла, чтобы выявить внутренние сигналы, такие как траектории ранга и кривые потерь.
Анализ показывает резкую категориальную асимметрию: служебные слова с пространственным префиксом вызывают сбои, тогда как семантически значимые токены восстанавливаются почти идеально.
На промптах C4 длиной 10 токенов точность полного совпадения возрастает с 66.9% до 97.5% при расширении окна кандидатов, что указывает на то, что большинство ошибок являются исправляемыми "почти совпадениями".
Непрерывная формулировка делает оптимизацию наблюдаемой, а сбои обнаруживаемыми, в отличие от более быстрых методов жесткой проекции на каждом шаге, таких как SIPIT.

Результаты демонстрируют, что скрытые состояния последнего слоя GPT-2 крайне чувствительны к входному тексту, что позволяет эффективно восстанавливать исходную последовательность.