Un usuario de Reddit argumenta que la divergencia de Kullback-Leibler (KL) es una métrica defectuosa para medir la diferencia entre un modelo abliterado y su versión base. El autor señala que KL puede representarse de muchas maneras, depende completamente de los prompts de evaluación y a menudo se manipula mediante KL del primer token para hacer que los modelos parezcan superiores.
- KL es criticado por ser representable de múltiples maneras.
- Los resultados de la métrica dependen completamente de los prompts de evaluación utilizados.
- El KL del primer token se usa frecuentemente para inflar artificialmente las comparaciones de rendimiento del modelo.
El autor busca comentarios de la comunidad sobre si esta evaluación es precisa y pide recomendaciones sobre mejores métodos para medir las diferencias entre modelos abliterados y base.