Este artículo presenta Semantic Browsing, un método para generar diversidad controlada en modelos de texto a imagen al imponer estructura a las muestras generadas con el fin de superar la falta de variación significativa en los sistemas actuales. El enfoque induce diversidad directamente a nivel textual en lugar de depender de variaciones estocásticas dentro del modelo.

  • Aprovecha el desacoplamiento de la toma de decisiones semánticas y la generación de píxeles en modelos recientes de texto a imagen entrenados con descripciones detalladas.
  • Utiliza representaciones textuales ricas para permitir que un Modelo de Lenguaje Visión (VLM) opere sobre el contexto completo de la escena.
  • Emplea un flujo de trabajo basado en agentes que impone explícitamente una variación estructurada ajustada al prompt original.
  • Produce espacios de diseño diversos y navegables donde cada variación corresponde a una decisión semántica específica y comprensible para el usuario.

Los autores consideran esto importante porque permite a los usuarios navegar por galerías de imágenes estructuradas y experimentar la exploración creativa mediante un recorrido sistemático de ejes de variación significativos e interpretables.