El impuesto del lenguaje africano: cuantificar el costo, la latencia y la penalización por contexto de tokenizar lenguas africanas en LLMs de vanguardia

Un estudio cuantifica la penalización estructural de tokenización que enfrentan las lenguas africanas en modelos de lenguaje grandes comerciales, revelando que los hablantes pagan costos más altos y experimentan mayor latencia debido a una asignación ineficiente de subpalabras. Entre 20 lenguas africanas y 11 tokenizadores de vanguardia, cada lengua evaluada incurre en un sobreprecio respecto al inglés, con costos medianos que alcanzan 1.88 veces los del inglés y hasta 8.92 veces para el guion N'Ko.

El sobreprecio mediano de tokenización es de 1.88x en GPT-5 / o200k_base, con penalizaciones que llegan a 7-9x para los guiones etíopes y N'Ko.
Esto resulta en un multiplicador de hasta 8.9x en el costo de inferencia y la latencia de generación, reduciendo la ventana de contexto efectiva a tan solo el 11% de la capacidad del inglés.
El tokenizador Gemma 4 ofrece la mejor mitigación actual, reduciendo el sobreprecio medio de 3.31x a 2.38x, pero no elimina la penalización.
La investigación lanza una herramienta de medición abierta (afri-fertility), un tablero público y un conjunto de datos de resultados para destacar esta brecha digital.

Los autores argumentan que estas disparidades codifican una brecha digital directamente en los vocabularios de subpalabras, afectando desproporcionadamente a los hablantes de lenguas que menos pueden permitirse los mayores costos computacionales.