Текстуальные состояния убеждений для моделей мира: идентифицируемое обучение представлений при строгой медиации
В данной статье рассматривается проблема неидентифицируемых латентных состояний в моделях мира на основе LLM, вызванная обходом истории, и предлагается строгая медиация латентных состояний для её решения. Авторы вводят текстуальные латентные состояния и факторизованный GRPO (fGRPO) — метод обучения с подкреплением древовидной структуры, обеспечивающий строгую медиацию во время обучения.