arxiv
arXiv cs.AI
·
5 ч назад
Африканский языковой налог: количественная оценка стоимости, задержки и контекстного штрафа при токенизации африканских языков в передовых LLM
Исследование количественно оценивает структурный штраф за токенизацию, с которым сталкиваются африканские языки в коммерческих больших языковых моделях, показывая, что пользователи платят больше и испытывают большую задержку из-за неэффективного назначения подслов. Для 20 африканских языков и 11 передовых токенизаторов каждый протестированный язык имеет премию по сравнению с английским, медианные затраты достигают 1,88 раза от английского и до 8,92 раза для скрипта Нко.