ContextRL: RL consciente del contexto para LLMs

ContextRL introduce un objetivo auxiliar indirecto para mejorar el razonamiento a largo plazo y el rendimiento multimodal en LLMs. Recompensa a los modelos por seleccionar el contexto que respalda un par de pregunta-respuesta, utilizando datos contextuales contrastivos de trayectorias de agentes de codificación y preguntas visuales basadas en imágenes. ContextRL logra ganancias de +2.2% y +1.8% sobre métodos estándar en benchmarks de QA visual y a largo plazo, con las ganancias atribuidas al objetivo de selección, no a la augmentación de datos.

Benchmarks