Эмпирическое исследование 86 156 поправок на тестовые файлы из 33 596 запросов на внесение изменений, созданных агентами, показывает, что 80,2% поправок на тестовые файлы содержат слабые или отсутствующие явные сигналы оракла. Тестовые файлы с сильным ораклом значительно повышают вероятность слияния (OR = 1,28, p < 0,001) после корректировки на множество факторов, что указывает на то, что присутствие тестового файла в отдельности переоценивает степень верификации.
arxiv
arXiv cs.AI
·
8 д назад
·
research
Сигналы Оракла в коде тестов, написанном агентами
Переведено с English → Русский
Бенчмарки
| Бенчмарк | Модель | Результат |
|---|---|---|
| SWE-bench Verified | Claude Code | 80.2% |
| SWE-bench Verified | Cursor | 80.2% |
| SWE-bench Verified | Devin | 80.2% |
| SWE-bench Verified | GitHub Copilot | 80.2% |
| SWE-bench Verified | OpenAI Codex | 80.2% |