Los LLMs podados fallan en la generación abierta a pesar de superar las preguntas de opción múltiple

Los modelos de lenguaje grandes podados suelen aprobar pruebas de opción múltiple pero fallan al generar respuestas correctas en respuestas abiertas. Esta 'ilusión del benchmark' muestra que las respuestas no se eliminan, sino que se degradan, reapareciendo solo con técnicas avanzadas de generación como beam search o muestreo. Los benchmarks estándar sobreestiman la usabilidad práctica de los modelos comprimidos, destacando un punto ciego crítico en la evaluación.