저자들은 비전-언어 모델이 사고 체인 추론 중에 시각적으로 기반된 자기 성찰을 수행할 수 있도록 설계된 강화 학습 프레임워크인 VRRL을 제안합니다.

  • VRRL은 훈련 중 궤도 접두사를 무작위로 마스킹하여 잘못된 중간 예측으로부터의 복구를 강조합니다.
  • 이 방법은 경험 재생 버퍼에서 버퍼드 롤인을 도입하여 모델이 다양한 실패 상태에 노출되도록 합니다.
  • 표와 차트를 포함한 시각적 그라운딩 작업 및 공간 탐색 벤치마크에서의 평가는 표준 RL 기반 대비 분포 외 정확도의 상당한 개선을 보여줍니다.