BamiBERT: Model Bahasa Baru Berbasis BERT untuk Bahasa Vietnam

Para peneliti memperkenalkan BamiBERT, model bahasa pra-pelatihan berbasis BERT baru untuk bahasa Vietnam yang dirancang untuk mengatasi keterbatasan standar saat ini, PhoBERT. Dilatih dari awal pada korpus 129GB selama 20 epoch, model ini mendukung panjang konteks yang diperluas hingga 2048 token dan beroperasi langsung pada input mentah tanpa segmentasi kata eksternal.

Mencapai skor terbaik pada 11 dari 15 metrik di seluruh 8 benchmark bahasa Vietnam.
Menetapkan state of the art baru di antara encoder bahasa Vietnam berukuran "base".
Menunjukkan kemampuan generalisasi lintas-domain yang kuat.
Menghilangkan kebutuhan akan segmentasi kata eksternal dengan beroperasi langsung pada input mentah.

Model ini dirilis di https://huggingface.co/Qualcomm-AI-Research/BamiBERT, menawarkan alternatif yang robust untuk tugas pengkodean teks bahasa Vietnam.