Estudo revela que estados ocultos de modelos de linguagem apenas-decodificadores permitem recuperação de entrada

Este trabalho investiga a inversão de modelos de linguagem apenas-decodificadores recuperando sequências originais de tokens de entrada a partir de seus estados ocultos da última camada por meio de otimização contínua no espaço de embedding.

O método usa um proxy suave no espaço contínuo, comprometendo os tokens apenas no final do loop interno para expor sinais internos como trajetórias de classificação e curvas de perda.
A análise mostra uma assimetria categórica acentuada onde palavras funcionais com prefixo espacial causam falhas, enquanto tokens portadores de conteúdo são recuperados quase perfeitamente.
Em prompts C4 de 10 tokens, as taxas de correspondência exata aumentam de 66,9% para 97,5% à medida que a janela de candidatos se alarga, indicando que a maioria dos erros são falhas próximas recuperáveis.
A formulação contínua torna a otimização observável e as falhas detectáveis, ao contrário dos métodos de projeção dura por etapa mais rápidos como SIPIT.

Os resultados demonstram que os estados ocultos da última camada do GPT-2 são altamente sensíveis ao texto de entrada, permitindo a recuperação eficaz da sequência original.