Navegación semántica: diversidad controlable para la generación de imágenes

Este artículo presenta Semantic Browsing, un método para generar diversidad controlada en modelos de texto a imagen al imponer estructura a las muestras generadas con el fin de superar la falta de variación significativa en los sistemas actuales. El enfoque induce diversidad directamente a nivel textual en lugar de depender de variaciones estocásticas dentro del modelo.

Aprovecha el desacoplamiento de la toma de decisiones semánticas y la generación de píxeles en modelos recientes de texto a imagen entrenados con descripciones detalladas.
Utiliza representaciones textuales ricas para permitir que un Modelo de Lenguaje Visión (VLM) opere sobre el contexto completo de la escena.
Emplea un flujo de trabajo basado en agentes que impone explícitamente una variación estructurada ajustada al prompt original.
Produce espacios de diseño diversos y navegables donde cada variación corresponde a una decisión semántica específica y comprensible para el usuario.

Los autores consideran esto importante porque permite a los usuarios navegar por galerías de imágenes estructuradas y experimentar la exploración creativa mediante un recorrido sistemático de ejes de variación significativos e interpretables.