В данной статье представлен байесовский контроллер для оркестрации современных агентов по написанию кода, решающий ограничения систем с фиксированными правилами, которые игнорируют неопределённость при использовании инструментов.
- Подход формулирует оркестрацию как последовательное тестирование гипотез с учётом стоимости для динамического выбора между сбором доказательств, уточнением кандидатов или их проверкой.
- Оценка на шести генераторах и девяти бенчмарках по написанию кода показывает, что метод наиболее эффективен, когда проверка дорогостояща, а критики информативны, но несовершенны.
- Получаемое состояние убеждённости предоставляет интерпретируемый балл корректности, превосходящий базовые методы на основе вероятностей токенов и сырых успехов использования инструмента для количественной оценки неопределённости.