최근 연구는 표준 밀집 아키텍처와 비교하여 하이브리드 언어 모델이 어떤 특정 토큰을 더 정확하게 예측하는지 조사합니다. 이 연구는 희귀 단어 및 코드 스니펫과 같은 다양한 토큰 유형 전반에 걸친 예측 오류의 분포를 이해하는 데 중점을 둡니다. 손실 지형을 분석함으로써 저자들은 하이브리드 모델이 희소 데이터 영역에서 장기 의존성을 포착하는 데 뛰어나다는 것을 확인했습니다. 연구 결과는 전문가 혼합 메커니즘이 추론 동안 더 효율적인 매개변수 활용을 가능하게 한다는 것을 시사합니다. 이러한 개선된 정확도는 훈련 코퍼스에서 낮은 빈도를 가진 토큰에 대해 특히 두드러집니다. 논문은 다양한 벤치마크 데이터셋 전반에 걸친 성능 지표의 상세한 내역을 제공합니다. 이러한 결과는 하이브리드 아키텍처가 다양한 언어 구조를 효과적으로 처리할 잠재력을 강조합니다.