В данной статье проводится аудит происхождения лицензий более чем двадцати семейств корпусов, используемых в африканской NLP, и выявляется, что, хотя доминируют лицензии Creative Commons, их правила совместимости редко применяются. Авторы создают матрицу совместимости из шести уровней и применяют её к трём языкам-кейс-стади: Китуба/Мунукутуба, Зарма и Мурле.
- CC-BY-SA и CC-BY-NC не могут быть объединены в одном опубликованном наборе данных, а условия NoDerivs молча запрещают токенизацию и аннотацию.
- Документированы четыре режима отказа с доказательствами из первоисточников, включая прямой запрет (JW300) и искажение информации о композитной лицензии (WAXAL).
- Условие NoDerivs скрыто за меткой CC-BY в корпусе Tanzil, тогда как проблема сохранения данных затрагивает корпус конголезского радио.
Исследование предоставляет чек-лист должной осмотрительности перед аннотацией и исследует юридически чистые возможности обогащения для решения этих правовых и технических проблем.