Пользователь Reddit утверждает, что расхождение Кульбака-Лейблера (KL) является ненадежной метрикой для измерения разницы между аблитерированной моделью и ее базовой версией. Автор отмечает, что KL можно представить множеством способов, она полностью зависит от оценочных промптов и часто манипулируется через first-token KL, чтобы сделать модели более привлекательными.

  • Критика KL связана с тем, что она может быть представлена несколькими способами.
  • Результаты метрики полностью зависят от используемых оценочных промптов.
  • First token KL часто используется для искусственного завышения сравнений производительности моделей.

Автор ищет отзывы сообщества о том, насколько точна эта оценка, и просит рекомендаций по лучшим методам измерения разницы между аблитерированными и базовыми моделями.