DeepRubric представляет рамку построения данных, которая создает пары запрос-оценочный критерий, начиная с определения верифицируемых целей оценки через дерево доказательств. Оно генерирует 9K примеров надзора и обучает модель размером 8B с использованием GRPO, достигая производительности, сравнимой с лучшими моделями, при использовании в 13 раз меньшего количества часов GPU для RL.
arxiv
arXiv cs.CL
·
9 д назад
·
research
DeepRubric: Эффективная RL для агентов глубокого исследования
Переведено с English → Русский
Важность 3/3
Обходит бенчмарк топ-лаборатории
Новая фича по сравнению с лидерами
Новый бенчмарк-харнесс с отличиями
arXiv cs.CL
OpenAI
Google DeepMind
Mistral AI
AI agents
Reasoning models
Training methods
Бенчмарки
| Бенчмарк | Модель | Результат |
|---|---|---|
| Multi-SWE-bench | DeepRubric-8B | — |
| SWE-bench | DeepRubric-8B | — |
| SWE-bench Verified | DeepRubric-8B | — |