ARCO представляет рамку рубрики, которая позволяет осуществлять присвоение кредитов на уровне шагов для агентов на основе многошаговых ЛЛМ. Он одновременно обновляет общую модель с головками генерации и оценки, позволяя содержанию рубрики и функции оценки когенерироваться через данные на-политики, что улучшает производительность и интерпретируемость на различных тестах.
ARCO: адаптивный рубрик с когенерацией для агентов на основе многошаговых ЛЛМ
Переведено с English → Русский