MinGram: Минималистичный униграммный токенизатор с высокой степенью сжатия и конкурентным морфологическим выравниванием

Авторы представляют MinGram, минималистичный униграммный токенизатор, который упрощает обучение за счет использования стартового словаря на основе BPE, жесткого EM на пути с минимальным количеством токенов и одного шага отсечения по плоскому скорингу. Этот подход устраняет необходимость в суффиксных массивах, прямых-обратных проходах и итеративных циклах отсечения, делая процедуру значительно менее сложной по сравнению со стандартными методами.

MinGram сохраняет представление списка токенов, но упрощает обучение за счет удаления суффиксного массива, прямого-обратного прохода и итеративного цикла отсечения.
Он использует стартовый словарь на основе BPE, жесткий EM на пути с минимальным количеством токенов и один шаг плоского отсечения по скорингу.

Делая количество токенов основной целью и используя скоринг Unigram только как критерий разрыва ничьей, он балансирует между сжатием и морфологическим выравниванием.
На шести языках MinGram обеспечивает лучшее сжатие, чем BPE и стандартный Unigram.
Вариант, ориентированный на сжатие, сопоставим по эффективности с сильнейшими токенизаторами по количеству токенов, сохраняя при этом существенно более высокое морфологическое выравнивание.

В контролируемом обучении языковых моделей downstream токенизаторы семейства Unigram, включая MinGram, последовательно превосходят BPE по метрике bits-per-byte.