В статье утверждается, что инфраструктура обработки естественного языка для более чем миллиарда носителей индийских языков фрагментирована из-за отсутствия общих структурных основ. Предлагается использовать морфосинтаксическую архитектуру, формализованную в Аштадхьяи Панини, в качестве объединяющей вычислительной основы для повышения точности и эффективности использования данных.

  • Текущее состояние области организует инструменты вокруг отдельных языков, упуская из виду глубокую регулярность, общую для индийских языков через санскритскую конвергенцию.
  • Панинианская основа может объединить разрозненные ресурсы в единую высокоуровневую основу на языке метаязыка.
  • Авторы предлагают четырехчастный набор бенчмарков для явного и измеримого представления этой общей архитектуры.
  • Исследование поднимает вопросы о том, представляют ли нейронные модели, обученные на этих языках независимо, категории Панини.

Этот подход направлен на повышение переносимости и эффективности использования данных систем обработки индийских языков за счет предоставления единой вычислительной архитектуры, которой ранее не хватало области.