В этой статье представлен BERTomelo, энкодер нового поколения для одного языка, специально оптимизированный для португальского языка с использованием архитектуры ModernBERT.
- Использует ModernBERT в версиях Base и Large с контекстным окном на 1 024 токена.
- Включает аппаратные оптимизации, такие как FlashAttention и чередующиеся механизмы внимания.
- Обучен на корпусе ClassiCC-PT, содержащем 106 миллионов высококачественных португальских документов.
- Превосходит предыдущие португальские энкодеры, такие как BERTimbau и Albertina, по масштабируемости и эффективности.
- Демонстрирует надежные результаты в задачах STS и NER по сравнению с крупными многоязычными моделями.