Adaptación de dominio conversacional de IndicTrans2 mediante experiencia repetida y sopas de modelos

Los autores adaptan el sistema de traducción de código abierto IndicTrans2-1B para manejar el registro conversacional en 21 idiomas indios utilizando únicamente conjuntos de datos públicos. Al combinar la experiencia repetida con la sopa de modelos, logran mejoras significativas en las métricas automáticas sin degradar el rendimiento en tareas de dominio general.

La adaptación utiliza los datos de OpenSubtitles, BPCC-H-Daily y Tatoeba para ajustar finamente el modelo para entradas conversacionales.
La experiencia repetida mezcla los datos generales nuevamente en el entrenamiento para evitar el olvido catastrófico del dominio general.
La sopa de modelos promedia los pesos ajustados finamente con los pesos del modelo base para equilibrar el rendimiento entre dominios.
El modelo resultante supera a IndicTrans2-1B en chrF conversacional en los 21 idiomas con una ganancia media de +6.2.
El rendimiento en la prueba FLORES de dominio general permanece estable, con un cambio medio de -0.17 chrF.

El estudio demuestra que estas técnicas permiten una coincidencia efectiva del registro con las referencias, aunque la evaluación humana no confirmó mejoras percibidas en la calidad.