Estados de creencia textual para modelos del mundo: Aprendizaje de representaciones identificables bajo mediación estricta
Este artículo aborda el problema de los estados latentes no identificables en modelos del mundo basados en LLM causados por la omisión del historial, proponiendo una mediación estricta de estados latentes para resolverlo. Los autores introducen estados latentes textuales y GRPO factorizado (fGRPO), un método de aprendizaje por refuerzo estructurado en árbol que impone una mediación estricta durante el entrenamiento.