Turing-RL introduce un método de aprendizaje por refuerzo que utiliza un juez basado en LLM para evaluar qué tan indistinguibles son las respuestas generadas de las entradas reales del usuario. Supera a los métodos base tanto en evaluaciones con LLM como humanas en los dominios de chat y foros de Reddit, demostrando que optimizar la indistinguibilidad mejora el rendimiento del simulador de usuarios.