В статье утверждается, что инфраструктура обработки естественного языка для более чем миллиарда носителей индийских языков фрагментирована из-за отсутствия общих структурных основ. Предлагается использовать морфосинтаксическую архитектуру, формализованную в Аштадхьяи Панини, в качестве объединяющей вычислительной основы для повышения точности и эффективности использования данных.
- Текущее состояние области организует инструменты вокруг отдельных языков, упуская из виду глубокую регулярность, общую для индийских языков через санскритскую конвергенцию.
- Панинианская основа может объединить разрозненные ресурсы в единую высокоуровневую основу на языке метаязыка.
- Авторы предлагают четырехчастный набор бенчмарков для явного и измеримого представления этой общей архитектуры.
- Исследование поднимает вопросы о том, представляют ли нейронные модели, обученные на этих языках независимо, категории Панини.
Этот подход направлен на повышение переносимости и эффективности использования данных систем обработки индийских языков за счет предоставления единой вычислительной архитектуры, которой ранее не хватало области.