소형 언어 모델 내부의 기능적 영역 탐색

이 독립 연구 프로젝트는 표준 출력 벤치마크에 의존하는 대신 추론 동안 숨겨진 표현이 어떻게 진화하는지를 분석하여 일곱 개의 소형 및 중형 언어 모델의 내부 역학을 특징짓습니다. 이 연구는 서로 다른 아키텍처 전반에서 재현 가능한 패턴을 식별하기 위해 동적 행동, 기능적 조직화 및 표현 기하학을 조사합니다.

분석에는 GPT-2, DistilGPT2, OPT-125M, Qwen2.5-0.5B-Instruct, TinyLlama-1.1B-Chat, Phi-1.5 및 Llama-3.2-1B 가 포함됩니다.
모델은 일관되게 두 개의 클러스터로 분리됩니다: GPT-2 와 DistilGPT2 는 하나의 그룹을 형성하는 반면, 아키텍처 차이에도 불구하고 나머지 다섯 모델은 다른 그룹을 형성합니다.
기능적 정보는 숨겨진 표현에서 선형적으로 디코딩 가능하며, 레이어 간에 다양한 기능적 용량을 가지지만 동일한 절대 깊이에 정렬되지 않습니다.
직교 회전은 디코딩 가능성을 거의 완전히 보존하며, 이는 기능적 신호가 특정 임베딩 차원보다는 표현 공간의 기하학에 의존함을 시사합니다.

이 연구는 관찰에서 인과 테스트로 나아가 특정 기능적 영역을 섭동하는 것이 다운스트림 행동에 변화를 일으키는지, 그리고 이러한 조직 원리가 모델 크기와 함께 어떻게 확장되는지를 결정하는 것을 목표로 합니다.