CFPO: Optimización de Política Contrafactual para Razonamiento Multimodal

CFPO introduce un mecanismo de mejora contrafactual cross-modal para mejorar la consistencia causal entre la percepción visual y el razonamiento textual en modelos de visión-lenguaje. Logra ganancias del 3.17%-6.25% sobre las líneas base estándar de RL y del 1.32%-2.13% sobre PAPO, sin requerir recompensas externas ni supervisión.