openpangu 팀은 Ascend 하드웨어에서 훈련된 Mixture of Experts (MoE) 모델인 openPangu-2.0-Flash를 출시했습니다. 이 모델은 총 920억 개의 파라미터와 60억 개의 활성화 파라미터를 가지며, 512k 토큰의 컨텍스트 길이를 지원합니다.

  • 훈련에는 34조 개의 사전 훈련 토큰이 사용되었으며, 그 후 느린 사고와 빠른 사고 기능을 위한 통합 SFT 및 여러 전문가 RL 훈련이 이어졌습니다.
  • 아키텍처 개선 사항에는 계산량과 메모리 비용을 줄이기 위해 MLA, DSA, SWA를 효율적으로 결합한 어텐션(1:2 레이어 비율)이 포함됩니다.
  • 이 모델은 표현의 다양성과 일반화를 향상시키기 위해 기존 잔차 경로를 4스트림 mHC 설계로 대체했습니다.
  • 멀티토큰 예측은 각 단계에서 3개의 추가 토큰을 초안하기 위해 세 개의 헤드를 사용하여 자기 추측 디코딩을 통해 추론 속도를 높입니다.
  • 훈련은 더 빠른 수렴을 달성하기 위해 Muon 옵티마이저를 사용합니다.

이번 릴스는 최적화된 추론 속도로 고성능 긴 컨텍스트 추론을 위한 오픈소스 옵션을 제공합니다.