media Hugging Face Forums · 3 天前 · open_models

对7个开源LLM的隐藏状态动态分析揭示了重复出现的功能模式

译自 English → 中文

一位独立研究人员分析了包括GPT-2、OPT-125M和Llama-3.2-1B在内的七个开源模型在推理过程中隐藏表示的演变，以识别超出标准输出基准的内部动力学机制。

隐藏状态轨迹表现出可复现的功能代理状态，如类语法处理和类决策行为，允许按内部动力学而非参数量进行聚类。
线性探针能够以高准确率从隐藏表示中解码功能类别，但在标签置换、随机高斯输入或特征置换下，这种性能会崩溃。
隐藏空间的正交旋转保持了解码性能，表明信息编码在表示的相对几何结构中，而非单个神经元或维度。
功能签名出现在不同架构的不同绝对层中，表明计算组织为演化的功能机制，而非固定的句法或语义层。

作者寻求机械可解释性和表示学习领域专家的批判性反馈，以验证这些经验观察并确定必要的对照实验。

重要性 1/3 可信度 1/3 Hugging Face Forums Evaluation & benchmarks Research paper