L3Cube-MahaPOS вводит датасет стандарта для тегирования частей речи на маратхи, вручную аннотированный 32 354 предложением из новостного текста. Включает схему 16 тегов универсальных зависимостей и проводит оценку шести семейств моделей, достигая точности на уровне токенов 88,67% и макро-F1 81,67% на 15 классах тегов с использованием MahaBERT-v2.
L3Cube-MahaPOS: датасет маратхи и модели BERT
Переведено с English → Русский