Извлечение и анализ мультимодальных концепций в моделях визуально-языковых

Новый фреймворк, использующий разреженные автоэнкодеры, извлекает и анализирует визуальные, текстовые и мультимодальные концепции из моделей визуально-языковых. Эксперименты на LLaVA-NeXT показывают улучшение качества визуальных концепций до 45% и систематическую идентификацию мультимодальных концепций, что предлагает структурированный подход к пониманию внутренних представлений VLM.