SupraLabs ha lanzado SupraVL-Nano-900k, un modelo de visión y lenguaje con 900k parámetros, completamente transparente, entrenado desde cero en Flickr8k. Cuenta con un codificador visual CNN, un decodificador estilo GPT-2 y fusión por concatenación de prefijos, con todos los componentes documentados abiertamente y diseñados para claridad educativa.