Este trabalho investiga a inversão de modelos de linguagem apenas-decodificadores recuperando sequências originais de tokens de entrada a partir de seus estados ocultos da última camada por meio de otimização contínua no espaço de embedding.
- O método usa um proxy suave no espaço contínuo, comprometendo os tokens apenas no final do loop interno para expor sinais internos como trajetórias de classificação e curvas de perda.
- A análise mostra uma assimetria categórica acentuada onde palavras funcionais com prefixo espacial causam falhas, enquanto tokens portadores de conteúdo são recuperados quase perfeitamente.
- Em prompts C4 de 10 tokens, as taxas de correspondência exata aumentam de 66,9% para 97,5% à medida que a janela de candidatos se alarga, indicando que a maioria dos erros são falhas próximas recuperáveis.
- A formulação contínua torna a otimização observável e as falhas detectáveis, ao contrário dos métodos de projeção dura por etapa mais rápidos como SIPIT.
Os resultados demonstram que os estados ocultos da última camada do GPT-2 são altamente sensíveis ao texto de entrada, permitindo a recuperação eficaz da sequência original.