После-последовательные операторы ложной фальсификации не улучшают точность в малых моделях кода

Исследование по измерению показало, что 26 семантических после-последовательных операторов не улучшают точность на выделенных данных по сравнению с Best-of-N в замороженных малых моделях кода. Хотя некоторые операторы снижают использование вычислительных ресурсов или восстанавливают правильные программы, ни один из них не превосходит BoN по точности из-за системных ограничений, таких как барьеры покрытия и ловушки консенсуса. Операция восстановления на уровне выражений (M1) улучшает производительность на HumanEval+ на 12 задач, без вреда или утечки, и демонстрирует стабильные результаты на всех ячейках моделей.

Бенчмарк	Модель	Результат
HumanEval+	DeepSeek-Coder-1.3B	12tasks
HumanEval	DeepSeek-Coder-1.3B	—
MBPP	DeepSeek-Coder-1.3B	—
MBPP+	DeepSeek-Coder-1.3B	—

Бенчмарки