arxiv arXiv cs.CL · hace 1 h · fuente: hace 11 d · research

DeepRubric: RL eficiente para agentes de investigación profunda

Traducido del English → Español

DeepRubric introduce un marco de construcción de datos que genera pares consulta-rúbrica definiendo primero objetivos de evaluación verificables mediante un árbol de evidencia. Genera 9K ejemplos de supervisión y entrena un modelo de 8B con GRPO, logrando un rendimiento comparable al de los modelos más avanzados utilizando 13 veces menos horas de GPU para RL.

Importancia 3/3 Supera un benchmark de un laboratorio puntero Nueva función frente a los líderes Nuevo entorno de evaluación con diferenciadores arXiv cs.CL OpenAI Google DeepMind Mistral AI AI agents Reasoning models Training methods

Benchmarks

Benchmark	Modelo	Puntuación
Multi-SWE-bench	DeepRubric-8B	—
SWE-bench	DeepRubric-8B	—
SWE-bench Verified	DeepRubric-8B	—

Leer original