Gazer представляет рамку без обучения, которая использует обратную связь крупных моделей языка с несколькими модальностями для исправления семантических ошибок в реальном времени во время генерации автобуровыми визуальными моделями. Интегрируя стадии отражательной диагностики и семантической коррекции, Gazer повышает составную точность и семантическую синхронизацию между несколькими моделями без дополнительного обучения.