CFPO: Counterfactual Policy Optimization для многомодального мышления

CFPO вводит механизм перекрестной модальности с обратной логикой для улучшения причинной согласованности между визуальным восприятием и текстовым мышлением в моделях визуально-языковых систем. Оно обеспечивает рост на 3,17%–6,25% по сравнению с стандартными базовыми RL и на 1,32%–2,13% по сравнению с PAPO, без необходимости внешних вознаграждений или надзора.