DeepRubric: Эффективная RL для агентов глубокого исследования

DeepRubric представляет рамку построения данных, которая создает пары запрос-оценочный критерий, начиная с определения верифицируемых целей оценки через дерево доказательств. Оно генерирует 9K примеров надзора и обучает модель размером 8B с использованием GRPO, достигая производительности, сравнимой с лучшими моделями, при использовании в 13 раз меньшего количества часов GPU для RL.

Бенчмарки

Бенчмарк	Модель	Результат
Multi-SWE-bench	DeepRubric-8B	—
SWE-bench	DeepRubric-8B	—
SWE-bench Verified	DeepRubric-8B	—

Бенчмарк

Модель

Результат

Multi-SWE-bench

DeepRubric-8B

—

SWE-bench

DeepRubric-8B

—

SWE-bench Verified

DeepRubric-8B

—