يقدم الباحثون BamiBERT، وهو نموذج لغوي مُدرَّب مسبقًا جديد قائم على BERT للغة الفيتنامية مصمم لمعالجة قيود المعيار الحالي، PhoBERT. تم تدريبه من الصفر على مجموعة بيانات بحجم 129 جيجابايت لمدة 20 عصرًا، ويدعم طول سياق موسع يصل إلى 2048 رمزًا ويعمل مباشرةً على الإدخال الخام دون تقسيم كلمات خارجي.

  • يحقق أفضل نتيجة في 11 من أصل 15 مقياس عبر 8 معايير تقييم فيتنامية.
  • يحدد حالة فنية جديدة بين مشفرات اللغة الفيتنامية بحجم "base".
  • يُظهر قدرات تعميم قوية عبر المجالات.
  • يلغي الحاجة إلى تقسيم الكلمات الخارجي من خلال العمل مباشرةً على الإدخال الخام.

تم إصدار النموذج على https://huggingface.co/Qualcomm-AI-Research/BamiBERT، مما يوفر بديلاً قويًا لمهام ترميز النص الفيتنامي.