Este artículo audita el origen de las licencias de más de veinte familias de corpus utilizadas en PLN africano, revelando que, aunque las licencias Creative Commons dominan las publicaciones, sus reglas de compatibilidad rara vez se aplican. Los autores construyen una matriz de compatibilidad de seis niveles y la aplican a tres lenguas de estudio de caso: Kituba/Munukutuba, Zarma y Moore.

  • CC-BY-SA y CC-BY-NC no pueden combinarse en un único conjunto de datos publicado, y las cláusulas NoDerivs prohíben silenciosamente la tokenización y la anotación.
  • Se documentan cuatro modos de fallo con evidencia de fuentes primarias, incluida la prohibición directa (JW300) y la mala representación de licencias compuestas (WAXAL).
  • Una cláusula NoDerivs está oculta detrás de una etiqueta CC-BY en el corpus Tanzil, mientras que un fallo en la persistencia de los datos afecta al Corpus de Radio Congoleño.

El estudio proporciona una lista de verificación de diligencia debida preanotación y analiza oportunidades de enriquecimiento legalmente limpias para abordar estos desafíos legales y técnicos.