Los investigadores presentan BamiBERT, un nuevo modelo de lenguaje preentrenado basado en BERT para vietnamita diseñado para abordar las limitaciones del estándar actual, PhoBERT. Entrenado desde cero en un corpus de 129GB durante 20 épocas, admite una longitud de contexto extendida de hasta 2048 tokens y opera directamente sobre la entrada sin segmentación externa de palabras.
- Logra la mejor puntuación en 11 de 15 métricas a través de 8 benchmarks vietnamitas.
- Establece un nuevo estado del arte entre codificadores vietnamitas de tamaño "base".
- Demuestra fuertes capacidades de generalización cruzada de dominios.
- Elimina la necesidad de segmentación externa de palabras al operar directamente sobre la entrada sin procesar.
El modelo se ha publicado en https://huggingface.co/Qualcomm-AI-Research/BamiBERT, ofreciendo una alternativa robusta para tareas de codificación de texto vietnamita.