Языки Африки испытывают штраф на токенизацию в 1,88 раза до 8,92 раза по сравнению с английским в передовых моделях языков, при этом скрипты Эфиопийского и Н'Ко несут наибольшие расходы. Этот штраф приводит к увеличению затрат на инференс до 8,9 раз и сокращению объёма контекста, при этом некоторые языки получают всего 11% от объёма контекста английского языка. Штраф сохраняется при различных корпусах и не устраняется современными токенизаторами, что подчёркивает структурное цифровое неравенство.