La Optimización de Política en la Zona Próxima (ZPPO) integra el conocimiento del maestro directamente en los prompts en lugar de en los gradientes de la política. Utiliza Preguntas Candidatas Binarias y Negativas para exponer los modos de fallo del estudiante y amplifica el aprendizaje a través de un búfer de repetición de prompts, logrando un rendimiento superior en preguntas difíciles a lo largo de las escalas del estudiante, especialmente en tamaños de modelo más pequeños.