Este trabajo investiga la inversión de modelos de lenguaje solo-decodificadores recuperando las secuencias originales de tokens de entrada a partir de sus estados ocultos de la última capa mediante optimización continua en el espacio de incrustaciones.
- El método utiliza un proxy suave en el espacio continuo, comprometiendo los tokens solo al final del bucle interno para exponer señales internas como trayectorias de rango y curvas de pérdida.
- El análisis muestra una asimetría categórica aguda donde las palabras funcionales con prefijo espacial causan fallos, mientras que los tokens portadores de contenido se recuperan casi perfectamente.
- En prompts de C4 de 10 tokens, las tasas de coincidencia exacta aumentan del 66.9% al 97.5% a medida que se amplía la ventana de candidatos, lo que indica que la mayoría de los errores son cercanas fallidas recuperables.
- La formulación continua hace que la optimización sea observable y los fallos detectables, a diferencia de los métodos de proyección dura por paso más rápidos como SIPIT.
Los resultados demuestran que los estados ocultos de la última capa de GPT-2 son altamente sensibles al texto de entrada, permitiendo una recuperación efectiva de la secuencia original.