이 독립 연구 프로젝트는 표준 출력 벤치마크에 의존하는 대신 추론 동안 숨겨진 표현이 어떻게 진화하는지를 분석하여 일곱 개의 소형 및 중형 언어 모델의 내부 역학을 특징짓습니다. 이 연구는 서로 다른 아키텍처 전반에서 재현 가능한 패턴을 식별하기 위해 동적 행동, 기능적 조직화 및 표현 기하학을 조사합니다.

  • 분석에는 GPT-2, DistilGPT2, OPT-125M, Qwen2.5-0.5B-Instruct, TinyLlama-1.1B-Chat, Phi-1.5 및 Llama-3.2-1B 가 포함됩니다.
  • 모델은 일관되게 두 개의 클러스터로 분리됩니다: GPT-2 와 DistilGPT2 는 하나의 그룹을 형성하는 반면, 아키텍처 차이에도 불구하고 나머지 다섯 모델은 다른 그룹을 형성합니다.
  • 기능적 정보는 숨겨진 표현에서 선형적으로 디코딩 가능하며, 레이어 간에 다양한 기능적 용량을 가지지만 동일한 절대 깊이에 정렬되지 않습니다.
  • 직교 회전은 디코딩 가능성을 거의 완전히 보존하며, 이는 기능적 신호가 특정 임베딩 차원보다는 표현 공간의 기하학에 의존함을 시사합니다.

이 연구는 관찰에서 인과 테스트로 나아가 특정 기능적 영역을 섭동하는 것이 다운스트림 행동에 변화를 일으키는지, 그리고 이러한 조직 원리가 모델 크기와 함께 어떻게 확장되는지를 결정하는 것을 목표로 합니다.