В статье представлен MultiHashFormer — фреймворк, обеспечивающий хеш-авторегрессию в причинных языковых моделях за счет представления токенов в виде уникальных сигнатур дискретных хеш-идентификаторов. Этот подход позволяет модели сжимать информацию о токенах в латентные векторы для обработки трансформером, а затем отображать их обратно в текст, эффективно решая проблемы коллизий «многие-к-одному», которые ранее препятствовали использованию хеширования в генеративных контекстах.
- Каждый токен представляется как короткая последовательность дискретных хеш-идентификаторов, сгенерированных несколькими независимыми хеш-функциями.
- Хеш-кодировщик (Hash Encoder) сжимает эти сигнатуры в единственные латентные векторы для декодера трансформера.
- Хеш-декодер (Hash Decoder) генерирует сигнатуру хеша следующего токена, которая затем отображается обратно в текст.
- Метод был оценен на масштабах 100M, 1B и 3B параметров.
- MultiHashFormer последовательно превосходит стандартные языковые модели на базе трансформеров по нескольким бенчмаркам.
- Модель поддерживает расширение многоязычного словаря с постоянным объемом параметров без внесения изменений.
Этот метод обеспечивает значительную эффективность параметров и возможность расширения многоязычных словарей без увеличения размера модели.