KLD es defectuoso en la abliteración

Un usuario de Reddit argumenta que la divergencia de Kullback-Leibler (KL) es una métrica defectuosa para medir la diferencia entre un modelo abliterado y su versión base. El autor señala que KL puede representarse de muchas maneras, depende completamente de los prompts de evaluación y a menudo se manipula mediante KL del primer token para hacer que los modelos parezcan superiores.

KL es criticado por ser representable de múltiples maneras.
Los resultados de la métrica dependen completamente de los prompts de evaluación utilizados.
El KL del primer token se usa frecuentemente para inflar artificialmente las comparaciones de rendimiento del modelo.

El autor busca comentarios de la comunidad sobre si esta evaluación es precisa y pide recomendaciones sobre mejores métodos para medir las diferencias entre modelos abliterados y base.