Un estudio cuantifica la penalización estructural de tokenización que enfrentan las lenguas africanas en modelos de lenguaje grandes comerciales, revelando que los hablantes pagan costos más altos y experimentan mayor latencia debido a una asignación ineficiente de subpalabras. Entre 20 lenguas africanas y 11 tokenizadores de vanguardia, cada lengua evaluada incurre en un sobreprecio respecto al inglés, con costos medianos que alcanzan 1.88 veces los del inglés y hasta 8.92 veces para el guion N'Ko.

  • El sobreprecio mediano de tokenización es de 1.88x en GPT-5 / o200k_base, con penalizaciones que llegan a 7-9x para los guiones etíopes y N'Ko.
  • Esto resulta en un multiplicador de hasta 8.9x en el costo de inferencia y la latencia de generación, reduciendo la ventana de contexto efectiva a tan solo el 11% de la capacidad del inglés.
  • El tokenizador Gemma 4 ofrece la mejor mitigación actual, reduciendo el sobreprecio medio de 3.31x a 2.38x, pero no elimina la penalización.
  • La investigación lanza una herramienta de medición abierta (afri-fertility), un tablero público y un conjunto de datos de resultados para destacar esta brecha digital.

Los autores argumentan que estas disparidades codifican una brecha digital directamente en los vocabularios de subpalabras, afectando desproporcionadamente a los hablantes de lenguas que menos pueden permitirse los mayores costos computacionales.