Новый фреймворк автоматизирует улучшение промптов для агентов на основе ЛЛМ, разделяя поток от наблюдения до действия на модули с целью и выбора действия. Он использует эволюционный цикл, управляемый ЛЛМ, для итеративного улучшения промптов на основе обратной связи от среды, достигая до 72,5% успеха в PutNext, где предыдущие агенты не справлялись, без тонкой настройки модели.
arxiv
arXiv cs.CL
·
8 д назад
·
research
Автоматизированная оптимизация промптов для агентов на основе ЛЛМ
Переведено с English → Русский
Важность 3/3
Обходит бенчмарк топ-лаборатории
Новая фича по сравнению с лидерами
Новый бенчмарк-харнесс с отличиями
arXiv cs.CL
OpenAI
Google DeepMind
Mistral AI
AI agents
Evaluation & benchmarks
Reasoning models
Бенчмарки
| Бенчмарк | Модель | Результат |
|---|---|---|
| PutnamBench | our framework | 72.5% |
| PutnamBench | RobustCoTAgent | 0% |