Против прокси-оптимизации

Автор обсуждает условия, при которых максимизация функции полезности прокси может привести к вредным последствиям. Этот анализ предполагает, что такие сценарии создают значительные проблемы для применения стандартной теории принятия решений. В тексте выделяются конкретные обстоятельства, при которых оптимизация по отношению к суррогатной цели расходится с предполагаемыми результатами. Эти выводы ставят под сомнение устойчивость текущих теоретических框架, используемых в искусственном интеллекте и экономике. Выявляя эти режимы отказа, работа стремится уточнить подход к проектированию агентов для предотвращения непредвиденных последствий.