Авторы предлагают VRRL, framework обучения с подкреплением, предназначенный для обеспечения визуально обоснованного саморефлексирования моделей зрения и языка во время рассуждений цепочкой мыслей.

  • VRRL случайно маскирует префиксы траекторий во время обучения, чтобы подчеркнуть восстановление после неверных промежуточных предсказаний.
  • Метод вводит буферизованные повторные запуски из буфера воспроизведения опыта, чтобы познакомить модель с разнообразными состояниями неудач.
  • Оценка на задачах визуального обоснования, включающих таблицы и диаграммы, а также бенчмарки пространственной навигации, показывает существенное улучшение точности вне распределения по сравнению со стандартными базовыми линиями RL.