Una canalización de alineación en dos etapas mejora el rendimiento pedagógico de los modelos de lenguaje grandes en la corrección de errores matemáticos. El enfoque combina el ajuste fino supervisado con la Optimización Directa de Preferencias utilizando datos sintéticos sobre andamiaje y factualidad, superando a los modelos base y existentes en precisión y calidad de enseñanza. Las evaluaciones humanas muestran que el modelo compite con una línea base propietaria, ofreciendo mayor apertura y reproducibilidad.