Семантический просмотр: управляемое разнообразие для генерации изображений
Современные модели преобразования текста в изображение часто страдают от коллапса разнообразия, несмотря на высокую детализацию. Авторы предлагают метод Semantic Browsing для обеспечения контролируемого разнообразия посредством структурированных галерей изображений. Этот подход позволяет пользователям ориентироваться по значимым осям вариативности, а не по случайному шуму. Метод использует разделение процессов семантического принятия решений и генерации пикселей в современных моделях. Разнообразие формируется непосредственно на текстовом уровне с использованием богатых текстовых представлений. В рамках агентного рабочего процесса Vision Language Model обрабатывает полный контекст сцены. Этот рабочий процесс явно обеспечивает структурированную вариативность, согласованную с исходным запросом. Результатом является навигируемое пространство дизайна с интерпретируемыми семантическими решениями.