独立した研究者が、GPT-2、OPT-125M、Llama-3.2-1Bを含む7つのオープンウェイトモデルにおける推論中の隠れ表現の進化を分析し、標準的な出力ベンチマークを超えた内部ダイナミクス体制を特定しました。
- 隠れ状態の軌道は、構文のような処理や意思決定のような振る舞いなどの再現可能な機能的プロキシ状態を示し、パラメータ数ではなく内部ダイナミクスによってクラスタリングすることを可能にします。
- リニアプローブは、隠れ表現から機能的カテゴリを高精度でデコードしますが、ラベルの置換、ランダムなガウス入力、または特徴量の置換下ではこのパフォーマンスは崩壊します。
- 隠れ空間の直交回転はデコードパフォーマンスを保持し、情報が個々のニューロンや次元ではなく表現の相対的な幾何学にエンコードされていることを示しています。
- 機能的な兆候はアーキテクチャ間で異なる絶対層に現れ、計算が固定された構文論的または意味論的な層ではなく、進化していく機能的な体制として組織化されていることを示唆しています。
著者は、これらの経験的観察を検証し、必要な制御実験を決定するために、機械的解釈可能性と表現学習の専門家からの批判的なフィードバックを求めています。