Исследование по измерению показывает, что 26 семантических после-операторов не улучшают точность на выделенных данных по сравнению с Best-of-N в замороженных малых моделях кода. Хотя два оператора — восстановление слоя выражений и адаптивный консенсус на раннем останове — обеспечивают преимущества в эффективности вычислений или восстановлении программы, ни один из них не превосходит BoN по точности. Результаты подчеркивают системные ограничения в обнаружении и покрытии ошибок, что указывает на необходимость улучшения инструментов для обнаружения ошибок и их покрытия до того, как будет рассматриваться пост-операционное рассуждение.
arxiv
arXiv cs.CL
·
9 д назад
·
research
После-операторы не улучшают точность в малых моделях кода
Переведено с English → Русский
Важность 2/3
Новый бенчмарк-харнесс с отличиями
arXiv cs.CL
DeepSeek
Code generation
Evaluation & benchmarks
Research paper
Бенчмарки
| Бенчмарк | Модель | Результат |
|---|---|---|
| HumanEval+ | DeepSeek-Coder-1.3B | 12tasks |
| MBPP+ | DeepSeek-Coder-1.3B | — |