ARCO представляет рамку рубрики, которая позволяет осуществлять присвоение кредитов на уровне шагов для агентов на основе многократных LLM. Он одновременно обновляет общий модель с головками генерации и оценки, позволяя содержанию рубрики и функции оценки когерентно развиваться за счёт данных на-политики, что улучшает производительность и интерпретируемость на различных тестовых наборах.
ARCO: адаптивный рубрикатор с когерентным развитием для агентов на основе многократных LLM
Переведено с English → Русский