Traducción automática neuronal para Tangkhul-Inglés de recursos limitados

Este estudio aborda la traducción automática de recursos limitados para el par de idiomas Tangkhul-Inglés, centrándose en una lengua tibeto-birmana severamente subrepresentada con infraestructura mínima previa de PLN. Los autores presentan dos sistemas: un modelo principal basado en ByT5-large y un sistema contrastivo que utiliza mT5-small, ambos ajustados finamente sobre 38,336 pares de oraciones paralelas. La evaluación en un conjunto de prueba retenido de 3,856 oraciones muestra que el sistema ByT5-large logra una puntuación BLEU de corpus de 39.97 y una puntuación chrF++ de 58.07. Las métricas adicionales incluyen una F1 de BERTScore de 0.8104 y una puntuación COMET de 0.7302 utilizando el modelo wmt22-comet-da. La investigación destaca los desafíos ortográficos relacionados con los diacríticos del alfabeto latino de Tangkhul como un obstáculo técnico específico. Además, el corpus de entrenamiento presenta sesgo de dominio, compuesto principalmente por textos bíblicos, historias y datos conversacionales. El trabajo futuro tiene como objetivo mejorar el rendimiento mediante la diversificación de datos y estrategias de adaptación de dominio.