Los autores proponen KbSD, un marco que aborda la escasez de recompensas en la búsqueda agéntica mediante el uso de supervisión densa a nivel de token y optimización adaptativa por cuadrante para calibrar cuándo los modelos deben confiar en la memoria paramétrica frente a la evidencia recuperada. Este enfoque utiliza un proceso de auto-distilación con asimetría de información donde un maestro aumentado con pistas genera demostraciones de razonamiento calibradas para un modelo estudiante sin requerir un modelo externo más grande.
- KbSD emplea supervisión densa a nivel de token junto con recompensas escasas a nivel de resultado para guiar el proceso de razonamiento a través de diferentes estados de conocimiento.
- El marco construye un maestro aumentado con pistas que recibe señales explícitas sobre la certeza paramétrica, la calidad de la recuperación y las respuestas de referencia.
- Un objetivo de distilación adaptativo por cuadrante aplica KL inverso para una integración concentrada, KL directo para un rechazo diverso y KL bidireccional óptimo de Pareto para cuadrantes asimétricos.
- Los experimentos demuestran mejoras consistentes en la precisión de la tarea y la mitigación de alucinaciones frente a bases sólidas, particularmente en cuadrantes desafiantes donde las recompensas escasas son menos informativas.
Este método ayuda a los usuarios permitiendo que los grandes modelos de lenguaje tomen decisiones más calibradas durante la recuperación dinámica, reduciendo efectivamente las alucinaciones y mejorando el rendimiento en escenarios complejos de búsqueda agéntica.