KbSD: Самодистилляция с учётом границ знаний для поведенческой калибровки
Авторы предлагают KbSD — фреймворк, решающий проблему разреженности вознаграждений в агентном поиске за счёт плотного токенового уровня контроля и квадрантно-адаптивной оптимизации для калибровки доверия моделей к параметрической памяти versus извлечённым доказательствам. Этот подход использует процесс асимметричной самодистилляции, где учитель с подсказками генерирует откалиброванные демонстрации рассуждений для модели-студента без необходимости использования внешней более крупной модели.