역량은 가중치에 없다: MLP 가중치 투영에 대한 경험적 부정 결과
경험적 연구는 한 트랜스포머 모델에서 다른 모델로 MLP 가중치를 투영하는 것이 의미적 역량을 이전하지 못한다는 것을 발견했습니다. 테스트된 모든 변형은 수정되지 않은 호스트 모델보다 더 나쁜 성능을 보였으며, 이는 가중치 투영에 구조적 제한이 있음을 나타냅니다. 이 결과는 벤치마크를 기반으로 한 모델 역량에 대한 공개적인 주장을 도전하며, 그러한 주장이 실제 내부 가중치 기하학을 반영하지 않음을 보여줍니다.