Las lenguas africanas enfrentan un sobrecosto de tokenización de 1.88x a 8.92x en comparación con el inglés en los LLMs de vanguardia, con los alfabetos etíope y n'ko que soportan los mayores costos. Esta penalización se traduce en costos de inferencia hasta 8.9 veces más altos y una capacidad de contexto reducida, con algunas lenguas recibiendo tan solo el 11% de la ventana de contexto efectiva del inglés. La penalización persiste a través de los corpus y no es eliminada por los tokenizers actuales, destacando una brecha digital estructural.
Penalización de tokenización en lenguas africanas en LLMs de vanguardia
Traducido del English → Español