Este artículo presenta BERTomelo, un codificador monolingüe de próxima generación específicamente optimizado para el idioma portugués utilizando la arquitectura ModernBERT.

  • Utiliza ModernBERT con versiones Base y Large que cuentan con una ventana de contexto de 1.024 tokens.
  • Incorpora optimizaciones a nivel de hardware, incluyendo FlashAttention y mecanismos de atención alternante.
  • Entrenado en ClassiCC-PT, un corpus de 106 millones de documentos de alta calidad en portugués.
  • Supera a codificadores portugueses anteriores como BERTimbau y Albertina en escalabilidad y eficiencia.
  • Demuestra un rendimiento robusto en tareas posteriores como STS y NER en comparación con modelos multilingües masivos.