Navegación semántica: Diversidad controlable para la generación de imágenes
Los modelos modernos de texto a imagen a menudo sufren de colapso de diversidad a pesar de su alta fidelidad. Los autores introducen Navegación Semántica para habilitar una diversidad controlada a través de galerías de imágenes estructuradas. Este método permite a los usuarios navegar por ejes significativos de variación en lugar de ruido incidental. El enfoque explota el desacoplamiento entre la toma de decisiones semánticas y la generación de píxeles en modelos recientes. La diversidad se induce directamente a nivel textual utilizando representaciones textuales ricas. Un Modelo de Lenguaje Visual opera sobre el contexto completo de la escena dentro de un flujo de trabajo agente. Este flujo de trabajo aplica explícitamente una variación estructurada ajustada al prompt original. El resultado es un espacio de diseño navegable con decisiones semánticas interpretables.