KbSD: Auto-distilación consciente del límite de conocimiento para la calibración conductual

Los autores proponen KbSD, un marco que aborda la escasez de recompensas en la búsqueda agéntica mediante el uso de supervisión densa a nivel de token y optimización adaptativa por cuadrante para calibrar cuándo los modelos deben confiar en la memoria paramétrica frente a la evidencia recuperada. Este enfoque utiliza un proceso de auto-distilación con asimetría de información donde un maestro aumentado con pistas genera demostraciones de razonamiento calibradas para un modelo estudiante sin requerir un modelo externo más grande.

KbSD emplea supervisión densa a nivel de token junto con recompensas escasas a nivel de resultado para guiar el proceso de razonamiento a través de diferentes estados de conocimiento.
El marco construye un maestro aumentado con pistas que recibe señales explícitas sobre la certeza paramétrica, la calidad de la recuperación y las respuestas de referencia.
Un objetivo de distilación adaptativo por cuadrante aplica KL inverso para una integración concentrada, KL directo para un rechazo diverso y KL bidireccional óptimo de Pareto para cuadrantes asimétricos.
Los experimentos demuestran mejoras consistentes en la precisión de la tarea y la mitigación de alucinaciones frente a bases sólidas, particularmente en cuadrantes desafiantes donde las recompensas escasas son menos informativas.

Este método ayuda a los usuarios permitiendo que los grandes modelos de lenguaje tomen decisiones más calibradas durante la recuperación dinámica, reduciendo efectivamente las alucinaciones y mejorando el rendimiento en escenarios complejos de búsqueda agéntica.