В данной статье проводится аудит происхождения лицензий более чем двадцати семейств корпусов, используемых в африканской NLP, и выявляется, что, хотя доминируют лицензии Creative Commons, их правила совместимости редко применяются. Авторы создают матрицу совместимости из шести уровней и применяют её к трём языкам-кейс-стади: Китуба/Мунукутуба, Зарма и Мурле.

  • CC-BY-SA и CC-BY-NC не могут быть объединены в одном опубликованном наборе данных, а условия NoDerivs молча запрещают токенизацию и аннотацию.
  • Документированы четыре режима отказа с доказательствами из первоисточников, включая прямой запрет (JW300) и искажение информации о композитной лицензии (WAXAL).
  • Условие NoDerivs скрыто за меткой CC-BY в корпусе Tanzil, тогда как проблема сохранения данных затрагивает корпус конголезского радио.

Исследование предоставляет чек-лист должной осмотрительности перед аннотацией и исследует юридически чистые возможности обогащения для решения этих правовых и технических проблем.