Un usuario de Reddit argumenta que la divergencia de Kullback-Leibler (KL) es una métrica defectuosa para medir la diferencia entre un modelo abliterado y su versión base. El autor señala que KL puede representarse de muchas maneras, depende completamente de los prompts de evaluación y a menudo se manipula mediante KL del primer token para hacer que los modelos parezcan superiores.

  • KL es criticado por ser representable de múltiples maneras.
  • Los resultados de la métrica dependen completamente de los prompts de evaluación utilizados.
  • El KL del primer token se usa frecuentemente para inflar artificialmente las comparaciones de rendimiento del modelo.

El autor busca comentarios de la comunidad sobre si esta evaluación es precisa y pide recomendaciones sobre mejores métodos para medir las diferencias entre modelos abliterados y base.