Los recientes modelos de razonamiento muestran solo una capacidad modesta para detectar cambios en sus cadenas de pensamiento. Tienen dificultades para identificar cómo se modificó su CoT y realizan de manera similar al evaluar cambios en sus propias CoTs frente a las de otros modelos.