BamiBERT: новая языковая модель на базе BERT для вьетнамского языка

Исследователи представляют BamiBERT, новую предобученную языковую модель на базе BERT для вьетнамского языка, разработанную для устранения ограничений текущего стандарта PhoBERT. Обучена с нуля на корпусе объемом 129 ГБ в течение 20 эпох, поддерживает расширенную длину контекста до 2048 токенов и работает напрямую с сырыми входными данными без внешней сегментации слов.

Демонстрирует лучший результат по 11 из 15 метрик на 8 вьетнамских бенчмарках.
Устанавливает новый state of the art среди "base"-размера вьетнамских энкодеров.
Демонстрирует сильные способности к обобщению между доменами.
Исключает необходимость внешней сегментации слов, работая напрямую с сырыми входными данными.

Модель опубликована на https://huggingface.co/Qualcomm-AI-Research/BamiBERT, предлагая надежную альтернативу для задач кодирования вьетнамского текста.