这项工作通过连续嵌入空间优化,从最后一层隐藏状态中恢复原始输入令牌序列,从而研究仅解码器语言模型的逆问题。

  • 该方法在连续空间中使用软代理,仅在内部循环结束时提交令牌,以暴露秩轨迹和损失曲线等内部信号。
  • 分析显示存在显著的类别不对称性:具有空间前缀的功能词会导致失败,而承载内容的令牌几乎可以完美恢复。
  • 在10个令牌的C4提示中,随着候选窗口的扩大,精确匹配率从66.9%上升到97.5%,表明大多数错误是可恢复的接近命中。
  • 连续公式化使优化可观察且故障可检测,这与SIPIT等更快的每步硬投影方法不同。

结果表明,GPT-2的最后一层隐藏状态对输入文本高度敏感,允许有效恢复原始序列。