KbSD: Auto-distilación consciente del límite de conocimiento para la calibración conductual
Los autores proponen KbSD, un marco que aborda la escasez de recompensas en la búsqueda agéntica mediante el uso de supervisión densa a nivel de token y optimización adaptativa por cuadrante para calibrar cuándo los modelos deben confiar en la memoria paramétrica frente a la evidencia recuperada. Este enfoque utiliza un proceso de auto-distilación con asimetría de información donde un maestro aumentado con pistas genera demostraciones de razonamiento calibradas para un modelo estudiante sin requerir un modelo externo más grande.