La supervisión actual de los agentes LLM se basa en puntuaciones de riesgo escalares, pero esto no logra capturar si una intervención mejora los resultados. El artículo introduce "ventaja de intervención" como la métrica clave, demostrando que el control condicionado a la acción supera al enrutamiento escalar en benchmarks, con una reducción significativa del arrepentimiento en regímenes interactivos. La calibración por sí sola no resuelve la discrepancia subyacente en el rendimiento del control.
La supervisión de LLM-Agent debe pasar de la calibración al control condicionado a la acción
Traducido del English → Español