Este artículo aborda el problema de los estados latentes no identificables en modelos del mundo basados en LLM causados por la omisión del historial, proponiendo una mediación estricta de estados latentes para resolverlo. Los autores introducen estados latentes textuales y GRPO factorizado (fGRPO), un método de aprendizaje por refuerzo estructurado en árbol que impone una mediación estricta durante el entrenamiento.

  • La mediación estricta requiere que las predicciones dependan únicamente del estado latente y la acción, haciendo que la calidad de la representación sea empíricamente comprobable.
  • Los estados latentes textuales son discretos, interpretables y de longitud variable, superando la no diferenciabilidad de las representaciones tradicionales basadas en texto.
  • GRPO factorizado (fGRPO) es un método de aprendizaje por refuerzo estructurado en árbol diseñado para imponer una mediación estricta durante el entrenamiento.

Los experimentos en TextWorld y ScienceWorld demuestran ganancias de hasta el 57% en la calidad de la representación y mejoras del 98% en el rendimiento de las rollout, con beneficios que aumentan junto con la complejidad de la tarea.