Мониторы на основе механизма для превентивного обнаружения нестабильности обучения LLM
В этой статье представлены мониторы на основе механизма, предназначенные для обнаружения нестабильности обучения больших языковых моделей до того, как она нанесет значительный ущерб. За счет извлечения внутренних сигналов из функциональных ролей критических модулей эти мониторы выявляют сбои за тысячи шагов раньше, чем традиционные методы, основанные на функции потерь.