В этой статье представлен BERTomelo, энкодер нового поколения для одного языка, специально оптимизированный для португальского языка с использованием архитектуры ModernBERT.

  • Использует ModernBERT в версиях Base и Large с контекстным окном на 1 024 токена.
  • Включает аппаратные оптимизации, такие как FlashAttention и чередующиеся механизмы внимания.
  • Обучен на корпусе ClassiCC-PT, содержащем 106 миллионов высококачественных португальских документов.
  • Превосходит предыдущие португальские энкодеры, такие как BERTimbau и Albertina, по масштабируемости и эффективности.
  • Демонстрирует надежные результаты в задачах STS и NER по сравнению с крупными многоязычными моделями.