Новый метод, называемый probe-and-refine tuning, использует синтетические пробы исправления ошибок для итеративного улучшения файлов руководства репозитория с помощью одноразовых вызовов LLM, без циклов агентов или использования инструментов. На SWE-bench Verified он достигает среднего коэффициента разрешения 33,0% — на 14,5 процентных пункта выше начального статического базового знания — что свидетельствует о расширении охвата, а не точности исправлений. Метод позволяет агентам эффективно использовать большие бюджеты шагов, и производительность остается стабильной при различных моделях, при наличии достаточного диагностического вывода.
arxiv
arXiv cs.LG
·
6 д назад
·
research
Метод probe-and-refine улучшает производительность код-агента
Переведено с English → Русский
Важность 3/3
Новая фича по сравнению с лидерами
Новый бенчмарк-харнесс с отличиями
arXiv cs.LG
Alibaba (Qwen)
Microsoft Research
NVIDIA
AI agents
Code generation
Reasoning models
Бенчмарки
| Бенчмарк | Модель | Результат |
|---|---|---|
| SWE-bench Verified | NVIDIA-Nemotron-3-Nano-30B-A3B | — |