Un estudio revela que los estados ocultos de los modelos de lenguaje solo-decodificadores permiten la recuperación de entradas

Este trabajo investiga la inversión de modelos de lenguaje solo-decodificadores recuperando las secuencias originales de tokens de entrada a partir de sus estados ocultos de la última capa mediante optimización continua en el espacio de incrustaciones.

El método utiliza un proxy suave en el espacio continuo, comprometiendo los tokens solo al final del bucle interno para exponer señales internas como trayectorias de rango y curvas de pérdida.
El análisis muestra una asimetría categórica aguda donde las palabras funcionales con prefijo espacial causan fallos, mientras que los tokens portadores de contenido se recuperan casi perfectamente.
En prompts de C4 de 10 tokens, las tasas de coincidencia exacta aumentan del 66.9% al 97.5% a medida que se amplía la ventana de candidatos, lo que indica que la mayoría de los errores son cercanas fallidas recuperables.
La formulación continua hace que la optimización sea observable y los fallos detectables, a diferencia de los métodos de proyección dura por paso más rápidos como SIPIT.

Los resultados demuestran que los estados ocultos de la última capa de GPT-2 son altamente sensibles al texto de entrada, permitiendo una recuperación efectiva de la secuencia original.