Turing-RL introduce un método de aprendizaje por refuerzo que utiliza un juez basado en LLM para evaluar qué tan indistinguibles son las respuestas generadas de las entradas reales del usuario. Supera a los métodos base tanto en evaluaciones con LLM como humanas en los dominios de chat y foros de Reddit, demostrando que optimizar la indistinguibilidad mejora el rendimiento del simulador de usuarios.
Turing-RL: Aprendizaje de simuladores de usuarios con recompensas de Turing
Traducido del English → Español