Оверсайт LLM-агента должен перейти от калибровки к контролю, зависящему от действий

Текущий оверсайт LLM-агентов основан на скалярных оценках рисков, однако это не позволяет определить, улучшает ли вмешательство результаты. В статье вводится метрика "преимущество вмешательства" как ключевого показателя, демонстрируя, что контроль, зависящий от действий, превосходит скалярное распределение на всех бенчмарках, с значительным снижением разрыва в интерактивных режимах. Калибровка сама по себе не устраняет фундаментальную несоответствие в производительности контроля.