BamiBERT: Um Novo Modelo de Linguagem Baseado em BERT para Vietnamita
Pesquisadores apresentam o BamiBERT, um novo modelo de linguagem pré-treinado baseado em BERT para vietnamita, projetado para abordar as limitações do padrão atual, PhoBERT. Treinado do zero em um corpus de 129GB por 20 épocas, suporta um comprimento de contexto estendido de até 2048 tokens e opera diretamente na entrada bruta sem segmentação externa de palavras.