Текстуальные состояния убеждений для моделей мира: идентифицируемое обучение представлений при строгой медиации

В данной статье рассматривается проблема неидентифицируемых латентных состояний в моделях мира на основе LLM, вызванная обходом истории, и предлагается строгая медиация латентных состояний для её решения. Авторы вводят текстуальные латентные состояния и факторизованный GRPO (fGRPO) — метод обучения с подкреплением древовидной структуры, обеспечивающий строгую медиацию во время обучения.

Строгая медиация требует, чтобы предсказания зависели только от латентного состояния и действия, что делает качество представления эмпирически проверяемым.
Текстуальные латентные состояния дискретны, интерпретируемы и имеют переменную длину, преодолевая недифференцируемость традиционных текстовых представлений.
Факторизованный GRPO (fGRPO) — это метод обучения с подкреплением древовидной структуры, предназначенный для обеспечения строгой медиации во время обучения.

Эксперименты на TextWorld и ScienceWorld демонстрируют прирост качества представления до 57% и улучшение производительности отката на 98%, причем преимущества возрастают вместе со сложностью задачи.