Исследование количественно оценивает структурный штраф за токенизацию, с которым сталкиваются африканские языки в коммерческих больших языковых моделях, показывая, что пользователи платят больше и испытывают большую задержку из-за неэффективного назначения подслов. Для 20 африканских языков и 11 передовых токенизаторов каждый протестированный язык имеет премию по сравнению с английским, медианные затраты достигают 1,88 раза от английского и до 8,92 раза для скрипта Нко.
- Медианная премия за токенизацию составляет 1,88x на GPT-5 / o200k_base, при этом штрафы достигают 7-9x для эфиопских письменностей и скрипта Нко.
- Это приводит к увеличению стоимости инференса и задержки генерации до 8,9x, снижая эффективное контекстное окно до 11% от емкости английского языка.
- Токенизатор Gemma 4 предлагает лучшее текущее смягчение проблемы, уменьшая среднюю премию с 3,31x до 2,38x, но не устраняет штраф полностью.
- Авторы публикуют инструмент открытого измерения (afri-fertility), публичный рейтинг и набор данных результатов, чтобы подчеркнуть этот цифровой разрыв.
Авторы утверждают, что эти неравенства кодируют цифровой разрыв непосредственно в подсловарные словари, непропорционально затрагивая носителей языков, которые меньше всего могут позволить себе возросшие вычислительные затраты.