В этой статье представлен непрерывный Латентный мост, который связывает замороженные реактивные и рассуждающие модели зрения и языка, чтобы обеспечить работу игровых агентов в реальном времени с миллисекундной задержкой и долгосрочным планированием. Проецируя остаточные сигналы медленной модели в пространство входных эмбеддингов быстрой модели, он избегает текстовых циклов, сохраняя или превосходя традиционные Текстовые мосты по производительности.

  • Латентный мост соответствует или превосходит Текстовый мост в 7 играх Atari и домене вождения MetaDrive.
  • Он значительно улучшает результаты MsPacman на 57% и RoadRunner на 28% по сравнению с базовыми реактивными моделями.
  • Комбинирование обоих каналов приводит к деструктивной интерференции, снижая производительность на 96% в RoadRunner.
  • Преимущество моста высоко предсказуемо: корреляция r=0.93 с приростом медленного рассуждения над быстрой реакцией.

Подход обеспечивает безопасное решение для агентов, требующих как быстрых действий, так и сложного планирования; воспроизводимые конвейеры и записи реплея опубликованы.