一位独立研究人员分析了包括GPT-2、OPT-125M和Llama-3.2-1B在内的七个开源模型在推理过程中隐藏表示的演变,以识别超出标准输出基准的内部动力学机制。
- 隐藏状态轨迹表现出可复现的功能代理状态,如类语法处理和类决策行为,允许按内部动力学而非参数量进行聚类。
- 线性探针能够以高准确率从隐藏表示中解码功能类别,但在标签置换、随机高斯输入或特征置换下,这种性能会崩溃。
- 隐藏空间的正交旋转保持了解码性能,表明信息编码在表示的相对几何结构中,而非单个神经元或维度。
- 功能签名出现在不同架构的不同绝对层中,表明计算组织为演化的功能机制,而非固定的句法或语义层。
作者寻求机械可解释性和表示学习领域专家的批判性反馈,以验证这些经验观察并确定必要的对照实验。