В статье представлен MultiHashFormer — фреймворк, обеспечивающий хеш-авторегрессию в причинных языковых моделях за счет представления токенов в виде уникальных сигнатур дискретных хеш-идентификаторов. Этот подход позволяет модели сжимать информацию о токенах в латентные векторы для обработки трансформером, а затем отображать их обратно в текст, эффективно решая проблемы коллизий «многие-к-одному», которые ранее препятствовали использованию хеширования в генеративных контекстах.

  • Каждый токен представляется как короткая последовательность дискретных хеш-идентификаторов, сгенерированных несколькими независимыми хеш-функциями.
  • Хеш-кодировщик (Hash Encoder) сжимает эти сигнатуры в единственные латентные векторы для декодера трансформера.
  • Хеш-декодер (Hash Decoder) генерирует сигнатуру хеша следующего токена, которая затем отображается обратно в текст.
  • Метод был оценен на масштабах 100M, 1B и 3B параметров.
  • MultiHashFormer последовательно превосходит стандартные языковые модели на базе трансформеров по нескольким бенчмаркам.
  • Модель поддерживает расширение многоязычного словаря с постоянным объемом параметров без внесения изменений.

Этот метод обеспечивает значительную эффективность параметров и возможность расширения многоязычных словарей без увеличения размера модели.