레딧 사용자는 Google의 Gemma4-31B 모델의 레이어 수를 60에서 88로 증가시켜 약 470억 개의 파라미터로 확장했습니다. 이 과정에는 LLaMA Pro 접근 방식을 따르는 identity-init 확장이 포함되었으며, 이후 한국 법률 및 STEM 데이터에 대한 파인튜닝이 수행되었습니다.
- 특정 layer_scalar 수정과 함께 identity-init를 사용하여 Gemma4-31B를 60개에서 80개의 레이어로 확장했습니다.
- 이미 파인튜닝된 모델에 대해 80개에서 88개의 레이어로의 두 번째 블록 복제 확장을 수행했습니다.
- 결과적으로 약 47B 파라미터 모델을 한국 법률 및 STEM 데이터셋에 대해 파인튜닝했습니다.
- 복제된 풀 어텐션 레이어가 비활성 상태로 남아 있지 않고 훈련에 적극적으로 기여함을 확인했습니다.
저자는 Hugging Face에서 아키텍처 세부 정보와 모델 카드를 공유하며, 법률 및 STEM 사용 사례에 대한 초기 가능성을 언급하고 코딩 및 도구 호출 기능을 개선하기 위해 커뮤니티의 도움을 요청합니다.