Данная работа исследует инверсию декодерных языковых моделей путем восстановления исходных последовательностей входных токенов из их скрытых состояний последнего слоя с помощью непрерывной оптимизации в пространстве эмбеддингов.
- Метод использует мягкий прокси в непрерывном пространстве, фиксируя токены только в конце внутреннего цикла, чтобы выявить внутренние сигналы, такие как траектории ранга и кривые потерь.
- Анализ показывает резкую категориальную асимметрию: служебные слова с пространственным префиксом вызывают сбои, тогда как семантически значимые токены восстанавливаются почти идеально.
- На промптах C4 длиной 10 токенов точность полного совпадения возрастает с 66.9% до 97.5% при расширении окна кандидатов, что указывает на то, что большинство ошибок являются исправляемыми "почти совпадениями".
- Непрерывная формулировка делает оптимизацию наблюдаемой, а сбои обнаруживаемыми, в отличие от более быстрых методов жесткой проекции на каждом шаге, таких как SIPIT.
Результаты демонстрируют, что скрытые состояния последнего слоя GPT-2 крайне чувствительны к входному тексту, что позволяет эффективно восстанавливать исходную последовательность.