MultiHashFormer: Modelos de Lenguaje Generativos Basados en Hash
El artículo presenta MultiHashFormer, un marco que permite la autoregresión basada en hash en modelos de lenguaje causales representando tokens como firmas únicas de IDs de hash discretos. Este enfoque permite al modelo comprimir la información del token en vectores latentes para su procesamiento por el Transformer, mientras los mapea de vuelta al texto, abordando efectivamente los problemas de colisión muchos-a-uno que anteriormente impedían el uso de hashing en contextos generativos.