Un estudio de medición encuentra que 26 operadores semánticos post-hoc no mejoran la precisión sobre conjuntos de prueba en comparación con Best-of-N en modelos pequeños de código congelados. Aunque algunos operadores reducen el uso de cómputo o recuperan programas correctos, ninguno supera a BoN en precisión, debido a limitaciones sistémicas como muros de cobertura y trampas de consenso. Una recuperación a nivel de expresión (M1) mejora el rendimiento en HumanEval+ en 12 tareas, sin daño ni filtración, y muestra resultados consistentes entre celdas de modelos.
arxiv
arXiv cs.LG
·
hace 2 h
·
fuente: hace 13 d
·
research
Los operadores de falsificación post-hoc fallan en mejorar la precisión en modelos pequeños de código
Traducido del English → Español
Importancia 2/3
Nuevo entorno de evaluación con diferenciadores
arXiv cs.LG
DeepSeek
Code generation
Evaluation & benchmarks
Training methods
Benchmarks
| Benchmark | Modelo | Puntuación |
|---|---|---|
| HumanEval+ | DeepSeek-Coder-1.3B | 12tasks |
| HumanEval | DeepSeek-Coder-1.3B | — |
| MBPP | DeepSeek-Coder-1.3B | — |
| MBPP+ | DeepSeek-Coder-1.3B | — |