BamiBERT: Um Novo Modelo de Linguagem Baseado em BERT para Vietnamita

Pesquisadores apresentam o BamiBERT, um novo modelo de linguagem pré-treinado baseado em BERT para vietnamita, projetado para abordar as limitações do padrão atual, PhoBERT. Treinado do zero em um corpus de 129GB por 20 épocas, suporta um comprimento de contexto estendido de até 2048 tokens e opera diretamente na entrada bruta sem segmentação externa de palavras.

Alcança a melhor pontuação em 11 das 15 métricas em 8 benchmarks vietnamitas.
Estabelece um novo state of the art entre codificadores vietnamitas de tamanho "base".
Demonstra fortes capacidades de generalização cross-domain.
Elimina a necessidade de segmentação externa de palavras ao operar diretamente na entrada bruta.

O modelo foi lançado em https://huggingface.co/Qualcomm-AI-Research/BamiBERT, oferecendo uma alternativa robusta para tarefas de codificação de texto vietnamita.