Авторы адаптируют систему перевода IndicTrans2-1B с открытым исходным кодом для обработки разговорного регистра на 21 индийском языке, используя только публичные датасеты. Комбинируя реплей опыта (experience replay) с "супом" моделей (model souping), они достигают значительных улучшений в автоматических метриках без ухудшения производительности на задачах общего домена.

  • Адаптация использует данные OpenSubtitles, BPCC-H-Daily и Tatoeba для тонкой настройки модели на разговорный ввод.
  • Реплей опыта смешивает общие данные обратно в обучение, чтобы предотвратить катастрофическое забывание общего домена.
  • "Суп" моделей усредняет веса после тонкой настройки с весами базовой модели, чтобы сбалансировать производительность между доменами.
  • Полученная модель превосходит IndicTrans2-1B по метрике chrF для разговорного стиля на всех 21 языках со средним приростом +6.2.
  • Производительность на бенчмарке общего домена FLORES остается стабильной, со средним изменением -0.17 chrF.

Исследование демонстрирует, что эти техники позволяют эффективно соответствовать регистру референсам, хотя человеческая оценка не подтвердила воспринимаемые улучшения качества.