本研究は、連続的な埋め込み空間最適化を通じて最後の層の隠れ状態から元の入力トークン系列を復元することにより、デコーダのみ言語モデルの逆転を検証する。
- 本手法は連続空間内のソフトプロキシを使用し、ランク軌跡や損失曲線などの内部信号を可視化するため、内側ループの終了時のみトークンをコミットする。
- 分析により、接頭辞付き機能語が失敗を引き起こす一方、意味を持つトークンはほぼ完全に復元されるという明確なカテゴリ非対称性が示された。
- 10トークンのC4プロンプトにおいて、候補ウィンドウの拡大に伴い完全一致率が66.9%から97.5%に上昇し、ほとんどのエラーが回復可能なニアミスであることを示している。
- 連続的な定式化により最適化が観測可能になり、SIPITのような高速なステップごとのハード投影法とは異なり失敗の検出が可能になる。
この結果は、GPT-2の最後の層の隠れ状態が入力テキストに非常に敏感であり、元の系列の有効な回復を可能にすることを示している。