Riazi-8B: Un modelo de lenguaje grande en urdu para razonamiento matemático

Los modelos de lenguaje grandes recientes demuestran un fuerte razonamiento matemático, pero estas mejoras dependen en gran medida de recursos centrados en el inglés, dejando a idiomas con pocos recursos como el urdu con capacidades limitadas. Para abordar esta brecha, los investigadores desarrollaron Riazi-8B, un modelo en urdu diseñado específicamente para la resolución de problemas matemáticos en múltiples pasos. El modelo se creó mediante un proceso de adaptación en dos etapas que involucró preentrenamiento continuo en Wikipedia en urdu y ajuste fino supervisado en datos de Cadena de Pensamiento (Chain-of-Thought) en urdu derivados de GSM8K. La evaluación de Riazi-8B se realizó en el benchmark MGSM-Urdu frente a modelos existentes ajustados con instrucciones en urdu. Los resultados mostraron mejoras consistentes en la corrección de las respuestas, la calidad del razonamiento, la completitud de la respuesta y la generación en urdu en comparación con las líneas base. Estos hallazgos demuestran que combinar la adaptación al idioma urdu con el ajuste fino centrado en el razonamiento extiende efectivamente las capacidades de razonamiento matemático a idiomas con pocos recursos.