KbSD: Самодистилляция с учётом границ знаний для поведенческой калибровки

Авторы предлагают KbSD — фреймворк, решающий проблему разреженности вознаграждений в агентном поиске за счёт плотного токенового уровня контроля и квадрантно-адаптивной оптимизации для калибровки доверия моделей к параметрической памяти versus извлечённым доказательствам. Этот подход использует процесс асимметричной самодистилляции, где учитель с подсказками генерирует откалиброванные демонстрации рассуждений для модели-студента без необходимости использования внешней более крупной модели.

KbSD применяет плотный контроль на уровне токенов вместе с разреженными вознаграждениями на уровне результата для направления процесса рассуждения через различные состояния знаний.
Фреймворк конструирует учителя с подсказками, который получает явные сигналы о параметрической уверенности, качестве извлечения и эталонных ответах.
Квадрантно-адаптивная цель дистилляции применяет обратный KL для концентрированной интеграции, прямой KL для разнообразного отказа и оптимизированное по Парето двунаправленное KL для асимметричных квадрантов.
Эксперименты демонстрируют последовательные улучшения точности задач и смягчения галлюцинаций по сравнению с сильными базовыми моделями, особенно в сложных квадрантах, где разреженные вознаграждения наименее информативны.

Этот метод помогает пользователям, позволяя большим языковым моделям принимать более откалиброванные решения во время динамического извлечения, эффективно снижая галлюцинации и улучшая производительность в сложных сценариях агентного поиска.