Моделирование мира, созданное агентом, согласует обучение с потребностями принятия решений

В статье представлена процедура обучения Agent-Authored World Modeling (AAWM), которая устраняет ограничения стандартных целей моделирования мира, связанных с предсказанием следующего наблюдения. Этот традиционный подход часто игнорирует динамику, релевантную для текущего решения агента, поскольку обучение под контролем зависит от того, что раскрывает переход, а не от того, что необходимо. AAWM формирует обучение под контролем непосредственно из потребностей принятия решений политики, позволяя агенту определять необходимое понимание среды в каждом состоянии. Релевантные доказательства переходов извлекаются по траекториям и синтезируются в обучающие цели, которые захватывают эту ориентированную на решения динамику. Этот метод согласует цель обучения с конкретной информацией, необходимой перед действием, вместо того чтобы заставлять модель реконструировать следующее наблюдение. Экспериментальные результаты подтверждают эффективность AAWM в нескольких средах и настройках обучения. Результаты показывают, что цели моделирования мира, учитывающие принятие решений, обеспечивают более эффективный сигнал обучения, чем стандартное предсказание следующего наблюдения.