Una base paninian para el procesamiento de lenguas indias

El artículo sostiene que la infraestructura de procesamiento del lenguaje natural para los más de mil millones de hablantes de lenguas indias está fragmentada debido a la falta de cimientos estructurales compartidos. Propone aprovechar la arquitectura morfosintáctica formalizada en el Astādhyāyī de Pānini como un marco computacional unificador para mejorar la precisión y la eficiencia de los datos.

El campo actual organiza las herramientas alrededor de lenguas individuales, pasando por alto la profunda regularidad compartida entre las lenguas indias a través de la convergencia sánscrita.
Un marco paniniano puede fusionar recursos dispares en una única base rocosa de metalenguaje de alto recurso.
Los autores proponen un conjunto de cuatro pruebas para hacer explícita y medible esta arquitectura compartida.
La investigación plantea preguntas sobre si los modelos neuronales entrenados con estas lenguas de forma independiente representan las categorías de Pānini.

Este enfoque tiene como objetivo hacer que los sistemas de lenguas indias sean más transferibles y eficientes en datos, proporcionando una arquitectura computacional unificada que el campo ha carecido previamente.