BamiBERT : Un nouveau modèle linguistique basé sur BERT pour le vietnamien
Les chercheurs présentent BamiBERT, un nouveau modèle linguistique pré-entraîné basé sur BERT pour le vietnamien, conçu pour pallier les limites de la norme actuelle, PhoBERT. Entraîné à partir de zéro sur un corpus de 129 Go pendant 20 époques, il prend en charge une longueur de contexte étendue allant jusqu'à 2048 tokens et fonctionne directement sur l'entrée brute sans segmentation externe des mots.