这项独立研究项目通过分析隐藏表示在推理过程中的演变,而不是依赖标准的输出基准,来刻画七个中小型语言模型的内部动态。该研究调查了动态行为、功能组织和表示几何结构,以识别不同架构之间可复现的模式。
- 分析涵盖了 GPT-2、DistilGPT2、OPT-125M、Qwen2.5-0.5B-Instruct、TinyLlama-1.1B-Chat、Phi-1.5 和 Llama-3.2-1B。
- 模型始终分为两个集群:GPT-2 和 DistilGPT2 形成一个组,而其余五个模型形成另一个组,尽管存在架构差异。
- 功能信息可以从隐藏表示中线性解码,各层的功能容量各不相同,且与绝对深度不对齐。
- 正交旋转几乎完全保留了可解码性,表明功能信号依赖于表示空间的几何结构,而不是特定的嵌入维度。
该研究旨在从观察转向因果测试,以确定扰动特定功能区域是否会改变下游行为,以及这些组织原则如何随模型规模扩展。