ContextRL вводит косвенную вспомогательную цель для улучшения долгосрочного мышления и многомодальных характеристик в LLMs. Модель получает награду за выбор контекста, поддерживающего пару запрос-ответ, используя контрастные данные о контексте из траекторий кодирующих агентов и изображений, связанных с визуальными вопросами. ContextRL достигает роста на +2,2% и +1,8% по сравнению с стандартными методами на тестах долгосрочного мышления и визуальных вопросов, причём рост объясняется выбором цели, а не дополнением данных.
arxiv
arXiv cs.CL
·
9 д назад
·
research
ContextRL: контекстуально-оптимизированный RL для LLMs
Переведено с English → Русский
Важность 3/3
Новая фича по сравнению с лидерами
Новый бенчмарк-харнесс с отличиями
arXiv cs.CL
OpenAI
Google DeepMind
Mistral AI
AI agents
Multimodal
Reasoning models
Бенчмарки
| Бенчмарк | Модель | Результат |
|---|---|---|
| SWE-bench | ContextRL | 2.2% |