StochasT가 확률적 턴 깊이를 통해 시각 지시 튜닝을 개선

연구자들은 대규모 비전-언어 모델(LVLMs)에서 멀티 턴 학습과 싱글 턴 평가 간의 불일치를 해결하기 위한 방법인 StochasT를 제안했습니다. 이 접근 방식은 동일한 이미지에 대한 언어 작업을 확률적으로 그룹화하여 유기적인 순서를 유지하면서 다양한 크기의 클러스터로 묶습니다.

StochasT는 Dropout 및 stochastic depth와 유사한 확률적 그룹화를 사용하여 데이터를 드롭하지 않습니다.
Balanced Latin Square에 기반한 벤치마크 비종속 평가 메커니즘은 다양한 문맥 의존성 하에서의 강건성을 측정합니다.
실험 결과, 이 방법이 LVLMs에게 싱글 턴 및 멀티 턴 사용 사례 모두에서 강력한 능력을 부여함을 보여줍니다.

이 접근 방식은 학습 조건과 테스트 시나리오 간의 격차를 줄여주며, 시각적 주의력 감소와 문맥 과적합에도 불구하고 모델이 잠재력을 최대한 발휘할 수 있도록 합니다.