Сигналы Оракла в коде тестов, написанном агентами

Эмпирическое исследование 86 156 поправок на тестовые файлы из 33 596 запросов на внесение изменений, созданных агентами, показывает, что 80,2% поправок на тестовые файлы содержат слабые или отсутствующие явные сигналы оракла. Тестовые файлы с сильным ораклом значительно повышают вероятность слияния (OR = 1,28, p < 0,001) после корректировки на множество факторов, что указывает на то, что присутствие тестового файла в отдельности переоценивает степень верификации.

Бенчмарк	Модель	Результат
SWE-bench Verified	Claude Code	80.2%
SWE-bench Verified	Cursor	80.2%
SWE-bench Verified	Devin	80.2%
SWE-bench Verified	GitHub Copilot	80.2%
SWE-bench Verified	OpenAI Codex	80.2%

Бенчмарки