Лаборатория · Stability AI
arxiv arXiv cs.AI · 8 д назад

STAR: SpatioTemporal Adaptive Reward Allocation для генерации текста-в-изображение в RL после обучения

STAR вводит метод распределения вознаграждения в пространственно-временной области для генерации текста-в-изображение, используя карты внимания для динамического присвоения преимуществ на шагах дезактивации. Оно улучшает семантическую синхронизацию, отображение текста и оптимизацию предпочтений в Stable Diffusion 3.5 Medium, достигая 0.9759, 0.9757 и 23.60 на GenEval, OCR и PickScore соответственно.

arxiv arXiv cs.AI · 6 д назад

Скрытая эволюция скрытого визуального контекста в моделях с визуальным языком

Визуальные токены поступают в большие языковые модели в виде первичных, неструктурированных сигналов. Их внутреннее преобразование и интеграция зависят от архитектуры — либо как встроенные контекстные запросы, либо как вводимые в промежуточные слои — что приводит к различным путям эволюции визуальных представлений и характеристик частоты. Мы обнаруживаем, что внимание само по себе недостаточно; производительность определяется качеством визуальных представлений на каждом слое в различных схемах интеграции.