BamiBERT：一种新的基于 BERT 的越南语语言模型

研究人员推出了 BamiBERT，这是一种新的基于 BERT 的越南语预训练语言模型，旨在解决当前标准 PhoBERT 的局限性。该模型在 129GB 语料库上从头开始训练了 20 个 epoch，支持长达 2048 个 token 的扩展上下文长度，并直接在原始输入上运行，无需外部分词。

该模型已发布在 https://huggingface.co/Qualcomm-AI-Research/BamiBERT，为越南语文本编码任务提供了可靠的替代方案。