MinGram: Минималистичный униграммный токенизатор с высокой степенью сжатия и конкурентным морфологическим выравниванием
Авторы представляют MinGram, минималистичный униграммный токенизатор, который упрощает обучение за счет использования стартового словаря на основе BPE, жесткого EM на пути с минимальным количеством токенов и одного шага отсечения по плоскому скорингу. Этот подход устраняет необходимость в суффиксных массивах, прямых-обратных проходах и итеративных циклах отсечения, делая процедуру значительно менее сложной по сравнению со стандартными методами.