SupraLabs ha presentado el modelo Supra-A2A-Nano-Exp, un Transformer multimodal de 30M parámetros que unifica texto, imagen y video en un único flujo de tokens. El modelo trata todas las modalidades como tokens en una secuencia compartida, permitiendo modelado de lenguaje sobre un vocabulario combinado de 50,520 tokens sin codificadores de visión separados ni módulos de atención cruzada.