Исследователи представляют BamiBERT, новую предобученную языковую модель на базе BERT для вьетнамского языка, разработанную для устранения ограничений текущего стандарта PhoBERT. Обучена с нуля на корпусе объемом 129 ГБ в течение 20 эпох, поддерживает расширенную длину контекста до 2048 токенов и работает напрямую с сырыми входными данными без внешней сегментации слов.

  • Демонстрирует лучший результат по 11 из 15 метрик на 8 вьетнамских бенчмарках.
  • Устанавливает новый state of the art среди "base"-размера вьетнамских энкодеров.
  • Демонстрирует сильные способности к обобщению между доменами.
  • Исключает необходимость внешней сегментации слов, работая напрямую с сырыми входными данными.

Модель опубликована на https://huggingface.co/Qualcomm-AI-Research/BamiBERT, предлагая надежную альтернативу для задач кодирования вьетнамского текста.