한 개발자가 파라미터 수를 약 26B로 줄이면서 성능 향상을 목표로 Gemma 4 31B 모델을 재구축하는 계획을 밝혔습니다. 이 프로젝트에는 아키텍처 변경, 특정 훈련 기법, 데이터셋 큐레이션이 포함되어 더 작고 효율적인 모델을 만드는 것을 목표로 합니다.
- 5개의 슬라이딩 윈도우 어텐션(SWA) 레이어 중 가장 약한 Layer 3 제거.
- SWA 어텐션 스판을 1024/2048/4096/8.1k 토큰으로 재스케일링하고 그 뒤에 글로벌 레이어 추가.
- 정보 흐름과 전역적 일관성을 개선하기 위해 글로벌 레이어에 "Attention based Residual Networks" 구현.
- 네트워크의 상단과 하단을 고정하면서 재훈련 대상为目标으로 원본 모델의 TopK(12 또는 20) 로짓 사용.
- 이러한 구조적 수정을 통해 총 파라미터 수를 약 30.81B에서 약 26.02B로 줄임.
저자는 더 작은 규모로 긴 컨텍스트 기능과 전반적인 성능 향상을 목표로 하며, 모델의 "생각" 훈련 단계를 비검열화할 계획도 있습니다.