研究人员推出了 BamiBERT,这是一种新的基于 BERT 的越南语预训练语言模型,旨在解决当前标准 PhoBERT 的局限性。该模型在 129GB 语料库上从头开始训练了 20 个 epoch,支持长达 2048 个 token 的扩展上下文长度,并直接在原始输入上运行,无需外部分词。

  • 在 8 个越南语基准测试中的 15 项指标中有 11 项取得了最佳成绩。
  • 在“base”大小的越南语编码器中树立了新的 state of the art。
  • 展示了强大的跨领域泛化能力。
  • 通过直接在原始输入上运行,消除了对外部分词的需求。

该模型已发布在 https://huggingface.co/Qualcomm-AI-Research/BamiBERT,为越南语文本编码任务提供了可靠的替代方案。