MinGram: Un tokenizador unigrama minimalista con alta compresión y alineación morfológica competitiva
Los autores presentan MinGram, un tokenizador unigrama minimalista que simplifica el entrenamiento mediante el uso de un vocabulario inicial derivado de BPE, Hard EM en un camino de mínimo número de tokens y una única etapa de poda de puntuación plana. Este enfoque elimina la necesidad de matrices de sufijos, pasadas forward-backward y bucles iterativos de poda, haciendo que el procedimiento sea significativamente menos complejo que los métodos estándar.