레딧 사용자는 60개의 레이어를 가진 Google Gemma 4 31B 모델을 88개의 레이어를 포함하는 더 큰 44B 파라미터 버전으로 확장했습니다. 이 수정은 Google이 Lyzr Architect에서 사용할 수 있는 더 큰 밀집(dense) 모델 버전을 출시하지 않았기 때문에 수행되었습니다.
- 확장은 LLaMA Pro에서 영감을 받은 Gemma 전용 스케일링 전략을 사용하여 레이어 수를 60에서 88로 증가시킵니다.
- 새로운 레이어는 기본 모델의 지식과 훈련 중에 학습된 구조적 패턴을 사용하여 초기화되었습니다.
- 초기 결과는 확장된 모델이 원래의 정체성을 유지하면서 추가적인 용량을 얻고 있음을 나타냅니다.
저자는 컨텍스트가 쌓일 때 모델이 어떻게 동작하는지 관찰하기 위해 추가 테스트가 필요하다고 언급했습니다.