MinGram: Un tokenizador unigrama minimalista con alta compresión y alineación morfológica competitiva

Los autores presentan MinGram, un tokenizador unigrama minimalista que simplifica el entrenamiento mediante el uso de un vocabulario inicial derivado de BPE, Hard EM en un camino de mínimo número de tokens y una única etapa de poda de puntuación plana. Este enfoque elimina la necesidad de matrices de sufijos, pasadas forward-backward y bucles iterativos de poda, haciendo que el procedimiento sea significativamente menos complejo que los métodos estándar.

MinGram mantiene la representación de lista de tokens pero simplifica el entrenamiento al eliminar la matriz de sufijos, la pasada forward-backward y el bucle iterativo de poda.
Utiliza un vocabulario inicial derivado de BPE, Hard EM en un camino de mínimo número de tokens y una única etapa de poda de puntuación plana.
Al convertir el conteo de tokens en el objetivo principal y usar solo la puntuación Unigrama como desempate, equilibra la compresión con la alineación morfológica.
En seis idiomas, MinGram comprime mejor que tanto BPE como el Unigrama estándar.
Una variante orientada a la compresión iguala a los compresores de conteo de tokens más potentes mientras conserva una alineación morfológica sustancialmente mayor.

En entrenamientos controlados de modelos de lenguaje downstream, los tokenizadores de la familia Unigrama, incluido MinGram, superan consistentemente a BPE en bits por byte.