ContextRL introduce un objetivo auxiliar indirecto para mejorar el razonamiento a largo plazo y el rendimiento multimodal en LLMs. Recompensa a los modelos por seleccionar el contexto que respalda un par de pregunta-respuesta, utilizando datos contextuales contrastivos de trayectorias de agentes de codificación y preguntas visuales basadas en imágenes. ContextRL logra ganancias de +2.2% y +1.8% sobre métodos estándar en benchmarks de QA visual y a largo plazo, con las ganancias atribuidas al objetivo de selección, no a la augmentación de datos.
arxiv
arXiv cs.CL
·
hace 1 h
·
fuente: hace 11 d
·
research
ContextRL: RL consciente del contexto para LLMs
Traducido del English → Español
Importancia 3/3
Nueva función frente a los líderes
Nuevo entorno de evaluación con diferenciadores
arXiv cs.CL
OpenAI
Google DeepMind
Mistral AI
AI agents
Multimodal
Reasoning models
Benchmarks
| Benchmark | Modelo | Puntuación |
|---|---|---|
| SWE-bench | ContextRL | 2.2% |