MultiHashFormer: Modelos de Lenguaje Generativos Basados en Hash

El artículo presenta MultiHashFormer, un marco que permite la autoregresión basada en hash en modelos de lenguaje causales representando tokens como firmas únicas de IDs de hash discretos. Este enfoque permite al modelo comprimir la información del token en vectores latentes para su procesamiento por el Transformer, mientras los mapea de vuelta al texto, abordando efectivamente los problemas de colisión muchos-a-uno que anteriormente impedían el uso de hashing en contextos generativos.

Cada token se representa como una secuencia corta de IDs de hash discretos generados por múltiples funciones de hash independientes.
Un Hash Encoder comprime estas firmas en vectores latentes individuales para el decoder del Transformer.
Un Hash Decoder genera la firma de hash del siguiente token, que luego se mapea de vuelta al texto.
El enfoque fue evaluado a escalas de 100M, 1B y 3B parámetros.
MultiHashFormer supera consistentemente a los LMs Transformer estándar en múltiples benchmarks.
El modelo maneja la expansión del vocabulario multilingüe con una huella constante de parámetros sin modificaciones.

Este método permite una eficiencia significativa de parámetros y la capacidad de expandir vocabularios multilingües sin aumentar el tamaño del modelo.