Comprendiendo la ilusión de evaluación en modelos de lenguaje grandes basados en difusión

Un estudio revela que evaluar modelos de lenguaje grandes basados en difusión (dLLMs) es altamente sensible a las plantillas de prompt, creando una ilusión de que el descodificado paralelo mejora la eficiencia sin pérdida de rendimiento.

Los métodos actuales de descodificado paralelo consistentemente obtienen peores resultados que la línea base de descodificación de un solo token y no logran superar la compensación entre velocidad y calidad.
El ranking de los métodos de descodificado es altamente sensible a variaciones menores en las plantillas de prompt, lo que lleva a resultados de evaluación inconsistentes.
Una plantilla de prompt efectiva puede lograr buenos resultados con menos pasos de desruido, superando las ganancias marginales al aumentar esos pasos.

Estos hallazgos destacan la necesidad de directrices de evaluación confiables para prevenir conclusiones sesgadas sobre los métodos de descodificado de dLLMs.