Un nuevo marco que utiliza Autoencoders dispersos extrae y analiza conceptos visuales, textuales y multimodales de Modelos de Lenguaje y Visión. Los experimentos en LLaVA-NeXT muestran hasta un 45% de mejora en la calidad de los conceptos visuales e identificación sistemática de conceptos multimodales, ofreciendo un enfoque estructurado para comprender las representaciones internas de VLM.