Un nuevo marco automatiza el refinamiento de prompts para agentes LLM dividiendo el pipeline de observación a acción en módulos condicionados por objetivos y de selección de acciones. Utiliza un bucle evolutivo impulsado por LLM para mejorar iterativamente los prompts basándose en la retroalimentación del entorno, logrando hasta un 72.5% de éxito en PutNext donde agentes anteriores fallaron, sin ajuste fino del modelo.
arxiv
arXiv cs.CL
·
hace 2 h
·
fuente: hace 11 d
·
research
Optimización automatizada de prompts para agentes de juegos con LLM
Traducido del English → Español
Importancia 3/3
Supera un benchmark de un laboratorio puntero
Nueva función frente a los líderes
Nuevo entorno de evaluación con diferenciadores
arXiv cs.CL
OpenAI
Google DeepMind
Mistral AI
AI agents
Evaluation & benchmarks
Reasoning models
Benchmarks
| Benchmark | Modelo | Puntuación |
|---|---|---|
| PutnamBench | our framework | 72.5% |
| PutnamBench | RobustCoTAgent | 0% |