독립 연구자는 GPT-2, OPT-125M 및 Llama-3.2-1B를 포함한 7개의 오픈 가중치 모델에서 추론 중 숨겨진 표현의 진화를 분석하여 표준 출력 벤치마크를 넘어선 내부 역학 체계를 식별했습니다.
- 숨겨진 상태 궤적은 구문 처리 및 의사 결정과 같은 반복 가능한 기능적 대리 상태를 보여주며, 이는 매개변수 수가 아닌 내부 역학에 따라 클러스터링할 수 있게 합니다.
- 선형 프로브는 숨겨진 표현에서 기능적 카테고리를 높은 정확도로 디코딩하지만, 레이블 순열, 무작위 가우스 입력 또는 특징 순열 하에서는 이 성능이 붕괴됩니다.
- 숨겨진 공간의 직교 회전은 디코딩 성능을 보존하며, 이는 정보가 개별 뉴런이나 차원이 아닌 표현의 상대적 기하학에 인코딩되어 있음을 나타냅니다.
- 기능적 서명은 아키텍처 간 다양한 절대 레이어에 나타나며, 계산이 고정된 통사론적 또는 의미론적 레이어가 아니라 진화하는 기능적 체계로 조직되어 있음을 시사합니다.
저자는 이러한 경험적 관찰을 검증하고 필요한 통제 실험을 결정하기 위해 기계적 해석 가능성 및 표현 학습 전문가들의 비판적인 피드백을 구합니다.