Визуально обоснованное саморефлексирование для моделей зрения и языка через обучение с подкреплением

Авторы предлагают VRRL, framework обучения с подкреплением, предназначенный для обеспечения визуально обоснованного саморефлексирования моделей зрения и языка во время рассуждений цепочкой мыслей.

VRRL случайно маскирует префиксы траекторий во время обучения, чтобы подчеркнуть восстановление после неверных промежуточных предсказаний.
Метод вводит буферизованные повторные запуски из буфера воспроизведения опыта, чтобы познакомить модель с разнообразными состояниями неудач.
Оценка на задачах визуального обоснования, включающих таблицы и диаграммы, а также бенчмарки пространственной навигации, показывает существенное улучшение точности вне распределения по сравнению со стандартными базовыми линиями RL.