Ce travail examine l'inversion des modèles de langage uniquement décodeurs en récupérant les séquences de tokens d'entrée originaux à partir de leurs états cachés de dernière couche via une optimisation continue dans l'espace d'embedding.

  • La méthode utilise un proxy doux dans l'espace continu, ne validant les tokens qu'à la fin de la boucle interne pour exposer des signaux internes tels que les trajectoires de rang et les courbes de perte.
  • L'analyse montre une asymétrie catégorielle marquée où les mots fonctionnels préfixés par l'espace causent des échecs, tandis que les tokens porteurs de contenu sont récupérés presque parfaitement.
  • Sur des prompts C4 de 10 tokens, les taux de correspondance exacte passent de 66,9 % à 97,5 % lorsque la fenêtre de candidats s'élargit, indiquant que la plupart des erreurs sont des quasi-raté récupérables.
  • La formulation continue rend l'optimisation observable et les échecs détectables, contrairement aux méthodes de projection dure par étape plus rapides comme SIPIT.

Les résultats démontrent que les états cachés de dernière couche de GPT-2 sont très sensibles au texte d'entrée, permettant une récupération efficace de la séquence originale.