研究者らは、BamiBERTを提唱しました。これは現在の標準であるPhoBERTの制限に対処するために設計された、ベトナム語向けの新しいBERTベースの事前学習済み言語モデルです。129GBのコーパスで20エポックからスクラッチでトレーニングされ、最大2048トークンの拡張コンテキスト長をサポートし、外部の単語分割なしで生の入力を直接処理します。

  • ベトナム語の8つのベンチマーク全体で15指標のうち11で最高スコアを達成。
  • 「base」サイズのベトナム語エンコーダー間で新しい最先端記録を樹立。
  • 強力なドメイン横断的な汎化能力を示す。
  • 生の入力を直接処理することで、外部の単語分割の必要性を排除。

本モデルは https://huggingface.co/Qualcomm-AI-Research/BamiBERT で公開されており、ベトナム語テキストエンコーディングタスクに対する堅牢な代替手段を提供します。