Los contextos deficientes en las conversaciones pueden llevar al 'encasillamiento', donde los modelos repiten respuestas incorrectas o se reducen a una única respuesta. Los experimentos muestran caídas de rendimiento del 38-40% y empeoramiento de errores con más turnos de conversación, incluso cuando las entradas iniciales son correctas. Un nuevo método, RLVR con errores sintéticos, mejora el rendimiento del modelo en un 43-60% bajo dichos contextos deficientes.