Исследование по измерению показало, что 26 семантических после-последовательных операторов не улучшают точность на выделенных данных по сравнению с Best-of-N в замороженных малых моделях кода. Хотя некоторые операторы снижают использование вычислительных ресурсов или восстанавливают правильные программы, ни один из них не превосходит BoN по точности из-за системных ограничений, таких как барьеры покрытия и ловушки консенсуса. Операция восстановления на уровне выражений (M1) улучшает производительность на HumanEval+ на 12 задач, без вреда или утечки, и демонстрирует стабильные результаты на всех ячейках моделей.
arxiv
arXiv cs.LG
·
9 д назад
·
research
После-последовательные операторы ложной фальсификации не улучшают точность в малых моделях кода
Переведено с English → Русский
Важность 2/3
Новый бенчмарк-харнесс с отличиями
arXiv cs.LG
DeepSeek
Code generation
Evaluation & benchmarks
Training methods
Бенчмарки
| Бенчмарк | Модель | Результат |
|---|---|---|
| HumanEval+ | DeepSeek-Coder-1.3B | 12tasks |
| HumanEval | DeepSeek-Coder-1.3B | — |
| MBPP | DeepSeek-Coder-1.3B | — |
| MBPP+ | DeepSeek-Coder-1.3B | — |