arxiv
arXiv cs.AI
·
hace 4 h
El impuesto del lenguaje africano: cuantificar el costo, la latencia y la penalización por contexto de tokenizar lenguas africanas en LLMs de vanguardia
Un estudio cuantifica la penalización estructural de tokenización que enfrentan las lenguas africanas en modelos de lenguaje grandes comerciales, revelando que los hablantes pagan costos más altos y experimentan mayor latencia debido a una asignación ineficiente de subpalabras. Entre 20 lenguas africanas y 11 tokenizadores de vanguardia, cada lengua evaluada incurre en un sobreprecio respecto al inglés, con costos medianos que alcanzan 1.88 veces los del inglés y hasta 8.92 veces para el guion N'Ko.