Los operadores de falsificación post-hoc fallan en mejorar la precisión en modelos pequeños de código

Un estudio de medición encuentra que 26 operadores semánticos post-hoc no mejoran la precisión sobre conjuntos de prueba en comparación con Best-of-N en modelos pequeños de código congelados. Aunque algunos operadores reducen el uso de cómputo o recuperan programas correctos, ninguno supera a BoN en precisión, debido a limitaciones sistémicas como muros de cobertura y trampas de consenso. Una recuperación a nivel de expresión (M1) mejora el rendimiento en HumanEval+ en 12 tareas, sin daño ni filtración, y muestra resultados consistentes entre celdas de modelos.

Benchmark	Modelo	Puntuación
HumanEval+	DeepSeek-Coder-1.3B	12tasks
HumanEval	DeepSeek-Coder-1.3B	—
MBPP	DeepSeek-Coder-1.3B	—
MBPP+	DeepSeek-Coder-1.3B	—

Benchmarks