arxiv arXiv cs.AI · hace 1 h · fuente: hace 11 d · research

Los modelos base de aprendizaje por refuerzo ya deberían existir

Traducido del English → Español

El aprendizaje por refuerzo carece de modelos base a pesar de que los MDPs sintéticos son viables. Una prueba de concepto muestra que un único modelo entrenado en MDPs sintéticos resuelve benchmarks tabulares sin ajuste, superando a los métodos existentes en entornos online y igualándolos en entornos offline.

Importancia 2/3 Nuevo entorno de evaluación con diferenciadores arXiv cs.AI Allen AI AI agents Reasoning models Training methods

Leer original