BamiBERT: Model Bahasa Baru Berbasis BERT untuk Bahasa Vietnam
Para peneliti memperkenalkan BamiBERT, model bahasa pra-pelatihan berbasis BERT baru untuk bahasa Vietnam yang dirancang untuk mengatasi keterbatasan standar saat ini, PhoBERT. Dilatih dari awal pada korpus 129GB selama 20 epoch, model ini mendukung panjang konteks yang diperluas hingga 2048 token dan beroperasi langsung pada input mentah tanpa segmentasi kata eksternal.