Исследователи представляют BamiBERT, новую предобученную языковую модель на базе BERT для вьетнамского языка, разработанную для устранения ограничений текущего стандарта PhoBERT. Обучена с нуля на корпусе объемом 129 ГБ в течение 20 эпох, поддерживает расширенную длину контекста до 2048 токенов и работает напрямую с сырыми входными данными без внешней сегментации слов.
- Демонстрирует лучший результат по 11 из 15 метрик на 8 вьетнамских бенчмарках.
- Устанавливает новый state of the art среди "base"-размера вьетнамских энкодеров.
- Демонстрирует сильные способности к обобщению между доменами.
- Исключает необходимость внешней сегментации слов, работая напрямую с сырыми входными данными.
Модель опубликована на https://huggingface.co/Qualcomm-AI-Research/BamiBERT, предлагая надежную альтернативу для задач кодирования вьетнамского текста.