Este artículo presenta BERTomelo, un codificador monolingüe de próxima generación específicamente optimizado para el idioma portugués utilizando la arquitectura ModernBERT.
- Utiliza ModernBERT con versiones Base y Large que cuentan con una ventana de contexto de 1.024 tokens.
- Incorpora optimizaciones a nivel de hardware, incluyendo FlashAttention y mecanismos de atención alternante.
- Entrenado en ClassiCC-PT, un corpus de 106 millones de documentos de alta calidad en portugués.
- Supera a codificadores portugueses anteriores como BERTimbau y Albertina en escalabilidad y eficiencia.
- Demuestra un rendimiento robusto en tareas posteriores como STS y NER en comparación con modelos multilingües masivos.