El artículo presenta Tatoxa, un sistema de última generación diseñado para la desintoxicación automatizada de texto en el idioma tártaro de bajos recursos. Este trabajo aborda la falta de atención a la investigación sobre la mitigación del contenido abusivo en idiomas con recursos digitales limitados. Los autores presentan un nuevo conjunto de datos creado específicamente para ajustar y evaluar modelos de desintoxicación en estos entornos restringidos. Los experimentos comparativos demuestran que Tatoxa supera tanto a los grandes modelos de lenguaje de código abierto existentes como a los comerciales propietarios en métricas clave de calidad. Además, el estudio investiga las capacidades de transferencia interlingüística para evaluar la viabilidad de utilizar datos de otros idiomas. Los resultados indican que entrenar con datos nativos de tártaro es significativamente más efectivo que transferir conocimiento desde idiomas culturalmente cercanos como el ruso. Incluso cuando se dispone de un gran corpus en ruso, los enfoques interlingüísticos tienen un rendimiento inferior al de los modelos entrenados exclusivamente con texto nativo de tártaro.
Tatoxa: Un sistema novel de desintoxicación de texto para el tártaro de bajos recursos
Traducido del English → Español