media r/LocalLLaMA · 2시간 전 · open_models

Gemma 4 31b 재구축 중... 더 나은 성능으로... 26b로...

번역 English → 한국어

한 개발자가 파라미터 수를 약 26B로 줄이면서 성능 향상을 목표로 Gemma 4 31B 모델을 재구축하는 계획을 밝혔습니다. 이 프로젝트에는 아키텍처 변경, 특정 훈련 기법, 데이터셋 큐레이션이 포함되어 더 작고 효율적인 모델을 만드는 것을 목표로 합니다.

5개의 슬라이딩 윈도우 어텐션(SWA) 레이어 중 가장 약한 Layer 3 제거.
SWA 어텐션 스판을 1024/2048/4096/8.1k 토큰으로 재스케일링하고 그 뒤에 글로벌 레이어 추가.
정보 흐름과 전역적 일관성을 개선하기 위해 글로벌 레이어에 "Attention based Residual Networks" 구현.
네트워크의 상단과 하단을 고정하면서 재훈련 대상为目标으로 원본 모델의 TopK(12 또는 20) 로짓 사용.
이러한 구조적 수정을 통해 총 파라미터 수를 약 30.81B에서 약 26.02B로 줄임.

저자는 더 작은 규모로 긴 컨텍스트 기능과 전반적인 성능 향상을 목표로 하며, 모델의 "생각" 훈련 단계를 비검열화할 계획도 있습니다.

중요도 1/3 r/LocalLLaMA Open weights Training methods