arxiv arXiv cs.CL · 1 小时前 · 来源： 4 天前 · research

研究表明，仅解码器语言模型的隐藏状态允许恢复输入

译自 English → 中文

这项工作通过连续嵌入空间优化，从最后一层隐藏状态中恢复原始输入令牌序列，从而研究仅解码器语言模型的逆问题。

该方法在连续空间中使用软代理，仅在内部循环结束时提交令牌，以暴露秩轨迹和损失曲线等内部信号。
分析显示存在显著的类别不对称性：具有空间前缀的功能词会导致失败，而承载内容的令牌几乎可以完美恢复。
在10个令牌的C4提示中，随着候选窗口的扩大，精确匹配率从66.9%上升到97.5%，表明大多数错误是可恢复的接近命中。
连续公式化使优化可观察且故障可检测，这与SIPIT等更快的每步硬投影方法不同。

结果表明，GPT-2的最后一层隐藏状态对输入文本高度敏感，允许有效恢复原始序列。

重要性 1/3 arXiv cs.CL Research paper Safety & alignment