Пользователь Reddit утверждает, что расхождение Кульбака-Лейблера (KL) является ненадежной метрикой для измерения разницы между аблитерированной моделью и ее базовой версией. Автор отмечает, что KL можно представить множеством способов, она полностью зависит от оценочных промптов и часто манипулируется через first-token KL, чтобы сделать модели более привлекательными.
- Критика KL связана с тем, что она может быть представлена несколькими способами.
- Результаты метрики полностью зависят от используемых оценочных промптов.
- First token KL часто используется для искусственного завышения сравнений производительности моделей.
Автор ищет отзывы сообщества о том, насколько точна эта оценка, и просит рекомендаций по лучшим методам измерения разницы между аблитерированными и базовыми моделями.