Les chercheurs présentent BamiBERT, un nouveau modèle linguistique pré-entraîné basé sur BERT pour le vietnamien, conçu pour pallier les limites de la norme actuelle, PhoBERT. Entraîné à partir de zéro sur un corpus de 129 Go pendant 20 époques, il prend en charge une longueur de contexte étendue allant jusqu'à 2048 tokens et fonctionne directement sur l'entrée brute sans segmentation externe des mots.

  • Obtient le meilleur score sur 11 des 15 métriques à travers 8 benchmarks vietnamiens.
  • Établit un nouvel état de l'art parmi les encodeurs vietnamiens de taille "base".
  • Démonstre de fortes capacités de généralisation inter-domaines.
  • Élimine le besoin de segmentation externe des mots en fonctionnant directement sur l'entrée brute.

Le modèle est publié à https://huggingface.co/Qualcomm-AI-Research/BamiBERT, offrant une alternative robuste pour les tâches d'encodage de texte vietnamien.