Авторы адаптируют систему перевода IndicTrans2-1B с открытым исходным кодом для обработки разговорного регистра на 21 индийском языке, используя только публичные датасеты. Комбинируя реплей опыта (experience replay) с "супом" моделей (model souping), они достигают значительных улучшений в автоматических метриках без ухудшения производительности на задачах общего домена.
- Адаптация использует данные OpenSubtitles, BPCC-H-Daily и Tatoeba для тонкой настройки модели на разговорный ввод.
- Реплей опыта смешивает общие данные обратно в обучение, чтобы предотвратить катастрофическое забывание общего домена.
- "Суп" моделей усредняет веса после тонкой настройки с весами базовой модели, чтобы сбалансировать производительность между доменами.
- Полученная модель превосходит IndicTrans2-1B по метрике chrF для разговорного стиля на всех 21 языках со средним приростом +6.2.
- Производительность на бенчмарке общего домена FLORES остается стабильной, со средним изменением -0.17 chrF.
Исследование демонстрирует, что эти техники позволяют эффективно соответствовать регистру референсам, хотя человеческая оценка не подтвердила воспринимаемые улучшения качества.