DeepRubric introduce un marco de construcción de datos que genera pares consulta-rúbrica definiendo primero objetivos de evaluación verificables mediante un árbol de evidencia. Genera 9K ejemplos de supervisión y entrena un modelo de 8B con GRPO, logrando un rendimiento comparable al de los modelos más avanzados utilizando 13 veces menos horas de GPU para RL.
arxiv
arXiv cs.CL
·
hace 1 h
·
fuente: hace 11 d
·
research
DeepRubric: RL eficiente para agentes de investigación profunda
Traducido del English → Español
Importancia 3/3
Supera un benchmark de un laboratorio puntero
Nueva función frente a los líderes
Nuevo entorno de evaluación con diferenciadores
arXiv cs.CL
OpenAI
Google DeepMind
Mistral AI
AI agents
Reasoning models
Training methods
Benchmarks
| Benchmark | Modelo | Puntuación |
|---|---|---|
| Multi-SWE-bench | DeepRubric-8B | — |
| SWE-bench | DeepRubric-8B | — |
| SWE-bench Verified | DeepRubric-8B | — |