arxiv arXiv cs.CL · hace 2 h · fuente: hace 9 d · research

Turing-RL: Aprendizaje de simuladores de usuarios con recompensas de Turing

Traducido del English → Español

Turing-RL introduce un método de aprendizaje por refuerzo que utiliza un juez basado en LLM para evaluar qué tan indistinguibles son las respuestas generadas de las entradas reales del usuario. Supera a los métodos base tanto en evaluaciones con LLM como humanas en los dominios de chat y foros de Reddit, demostrando que optimizar la indistinguibilidad mejora el rendimiento del simulador de usuarios.

Importancia 3/3 Nueva función frente a los líderes Nuevo entorno de evaluación con diferenciadores arXiv cs.CL OpenAI Anthropic Google DeepMind AI agents Evaluation & benchmarks Reasoning models

Leer original