Los autores proponen RAPS-DA, un marco de especialización por pares consciente del régimen diseñado para abordar la fragilidad de la generación aumentada con recuperación (RAG) cuando el contexto recuperado entra en conflicto con el conocimiento paramétrico del modelo. Este enfoque desentraña las señales de aprendizaje incompatibles entre diferentes regímenes de confiabilidad mediante el entrenamiento de pares especializados y la aplicación de supervisión dirigida.

Los conflictos se categorizan en tres regímenes: Anclaje, Arbitraje y Resistencia, con un mismo especialista por par a escala entrenado por régimen a partir de un modelo base compartido. Las muestras se enrutan directamente al par correspondiente para la supervisión reverse-KL on-policy a nivel de muestra. Un selector de doble capa filtra tokens no informativos y aumenta el peso de los que están claramente desalineados basándose en el desacuerdo entre maestros y la entropía del estudiante. El método logra mejoras mediante la especialización a una escala fija del modelo, con los especialistas por pares existentes únicamente durante el entrenamiento. Los experimentos demuestran que RAPS-DA supera a todas las líneas base de prompting, decodificación, ajuste fino, RL y maestro único en cinco escenarios de conflicto y dos benchmarks fuera de distribución.

Este marco permite que el modelo estudiante desplegado maneje conflictos de conocimiento heterogéneos sin requerir etiquetas de régimen ni acceso a los especialistas por pares durante la inferencia.