BamiBERT: 베트남어를 위한 새로운 BERT 기반 언어 모델

연구자들은 현재 표준인 PhoBERT의 한계를 해결하도록 설계된 베트남어용 새로운 BERT 기반 사전 훈련 언어 모델인 BamiBERT를 소개합니다. 129GB 코퍼스로 20 에포크 동안 처음부터 학습되었으며, 최대 2048 토큰의 확장된 컨텍스트 길이를 지원하고 외부 단어 분할 없이 원시 입력을 직접 처리합니다.

베트남어 벤치마크 8개에서 15개 지표 중 11개에서 최고 점수 달성.
"base" 크기 베트남어 인코더 간 새로운 최첨단 기록 수립.
강력한 도메인 간 일반화 능력 입증.
원시 입력을 직접 처리하여 외부 단어 분할의 필요성 제거.

이 모델은 https://huggingface.co/Qualcomm-AI-Research/BamiBERT 에서 공개되었으며, 베트남어 텍스트 인코딩 작업에 대한 견고한 대안을 제공합니다.