Este trabalho investiga a inversão de modelos de linguagem apenas-decodificadores recuperando sequências originais de tokens de entrada a partir de seus estados ocultos da última camada por meio de otimização contínua no espaço de embedding.

  • O método usa um proxy suave no espaço contínuo, comprometendo os tokens apenas no final do loop interno para expor sinais internos como trajetórias de classificação e curvas de perda.
  • A análise mostra uma assimetria categórica acentuada onde palavras funcionais com prefixo espacial causam falhas, enquanto tokens portadores de conteúdo são recuperados quase perfeitamente.
  • Em prompts C4 de 10 tokens, as taxas de correspondência exata aumentam de 66,9% para 97,5% à medida que a janela de candidatos se alarga, indicando que a maioria dos erros são falhas próximas recuperáveis.
  • A formulação contínua torna a otimização observável e as falhas detectáveis, ao contrário dos métodos de projeção dura por etapa mais rápidos como SIPIT.

Os resultados demonstram que os estados ocultos da última camada do GPT-2 são altamente sensíveis ao texto de entrada, permitindo a recuperação eficaz da sequência original.