小規模言語モデル内部の機能レジームを探る

この独立した研究プロジェクトは、標準的な出力ベンチマークに依存するのではなく、推論中に隠れた表現がどのように進化するかを分析することで、7つの小・中規模言語モデルの内部動態を特徴づけます。本研究は、動的挙動、機能的组织化、および表現幾何を調査し、異なるアーキテクチャ間で再現可能なパターンを特定することを目指しています。

分析には GPT-2、DistilGPT2、OPT-125M、Qwen2.5-0.5B-Instruct、TinyLlama-1.1B-Chat、Phi-1.5、および Llama-3.2-1B が含まれます。
モデルは一貫して2つのクラスターに分離します：GPT-2 と DistilGPT2 は1つのグループを形成し、アーキテクチャの違いにもかかわらず残りの5つのモデルは別のグループを形成します。
機能的情報は隠れた表現から線形にデコード可能であり、層間で異なる機能容量を持ちますが、同じ絶対的な深さでは整列しません。
直交回転はデコード可能性をほぼ完全に保持しており、機能的信号が特定の埋め込み次元ではなく表現空間の幾何学に依存していることを示唆しています。

本研究は、観測から因果テストへと移行し、特定の機能領域を摂動することが下流の挙動を変化させるかどうか、およびこれらの組織原則がモデルサイズとともにどのようにスケールするかを決定することを目指しています。