MultiHashFormer: Генеративные языковые модели на основе хеширования

В статье представлен MultiHashFormer — фреймворк, обеспечивающий хеш-авторегрессию в причинных языковых моделях за счет представления токенов в виде уникальных сигнатур дискретных хеш-идентификаторов. Этот подход позволяет модели сжимать информацию о токенах в латентные векторы для обработки трансформером, а затем отображать их обратно в текст, эффективно решая проблемы коллизий «многие-к-одному», которые ранее препятствовали использованию хеширования в генеративных контекстах.

Каждый токен представляется как короткая последовательность дискретных хеш-идентификаторов, сгенерированных несколькими независимыми хеш-функциями.
Хеш-кодировщик (Hash Encoder) сжимает эти сигнатуры в единственные латентные векторы для декодера трансформера.
Хеш-декодер (Hash Decoder) генерирует сигнатуру хеша следующего токена, которая затем отображается обратно в текст.
Метод был оценен на масштабах 100M, 1B и 3B параметров.
MultiHashFormer последовательно превосходит стандартные языковые модели на базе трансформеров по нескольким бенчмаркам.
Модель поддерживает расширение многоязычного словаря с постоянным объемом параметров без внесения изменений.

Этот метод обеспечивает значительную эффективность параметров и возможность расширения многоязычных словарей без увеличения размера модели.