Нейронный машинный перевод для низко-ресурсной пары танхул-английский

В данном исследовании рассматривается задача машинного перевода для низко-ресурсной языковой пары танхул-английский, с акцентом на сильно недопредставленный тибето-бирманский язык, обладающий минимальной предыдущей инфраструктурой в области NLP. Авторы представляют две системы: основную модель на базе ByT5-large и контрастивную систему, использующую mT5-small, обе из которых были дообучены на 38 336 парах параллельных предложений. Оценка на выделенном тестовом наборе из 3 856 предложений показывает, что система ByT5-large достигает corpus BLEU-оценки 39.97 и chrF++-оценки 58.07. Дополнительные метрики включают BERTScore F1 равный 0.8104 и COMET-оценку 0.7302 с использованием модели wmt22-comet-da. Исследование подчеркивает орфографические проблемы, связанные с диакритическими знаками латинского алфавита танхула, как специфическую техническую преграду. Кроме того, обучающий корпус демонстрирует доменную предвзятость, состоящую преимущественно из библейских текстов, историй и разговорных данных. Будущая работа направлена на улучшение результатов за счет диверсификации данных и стратегий адаптации к домену.