arxiv arXiv cs.CL · hace 2 h · fuente: hace 11 d · research

Optimización automatizada de prompts para agentes de juegos con LLM

Traducido del English → Español

Un nuevo marco automatiza el refinamiento de prompts para agentes LLM dividiendo el pipeline de observación a acción en módulos condicionados por objetivos y de selección de acciones. Utiliza un bucle evolutivo impulsado por LLM para mejorar iterativamente los prompts basándose en la retroalimentación del entorno, logrando hasta un 72.5% de éxito en PutNext donde agentes anteriores fallaron, sin ajuste fino del modelo.

Importancia 3/3 Supera un benchmark de un laboratorio puntero Nueva función frente a los líderes Nuevo entorno de evaluación con diferenciadores arXiv cs.CL OpenAI Google DeepMind Mistral AI AI agents Evaluation & benchmarks Reasoning models

Benchmarks

Benchmark	Modelo	Puntuación
PutnamBench	our framework	72.5%
PutnamBench	RobustCoTAgent	0%

Leer original