探索小型语言模型内部的函数化阶段

这项独立研究项目通过分析隐藏表示在推理过程中的演变，而不是依赖标准的输出基准，来刻画七个中小型语言模型的内部动态。该研究调查了动态行为、功能组织和表示几何结构，以识别不同架构之间可复现的模式。

分析涵盖了 GPT-2、DistilGPT2、OPT-125M、Qwen2.5-0.5B-Instruct、TinyLlama-1.1B-Chat、Phi-1.5 和 Llama-3.2-1B。
模型始终分为两个集群：GPT-2 和 DistilGPT2 形成一个组，而其余五个模型形成另一个组，尽管存在架构差异。
功能信息可以从隐藏表示中线性解码，各层的功能容量各不相同，且与绝对深度不对齐。
正交旋转几乎完全保留了可解码性，表明功能信号依赖于表示空间的几何结构，而不是特定的嵌入维度。

该研究旨在从观察转向因果测试，以确定扰动特定功能区域是否会改变下游行为，以及这些组织原则如何随模型规模扩展。