RTSGameBench aborda las limitaciones de los benchmarks de RTS existentes ofreciendo una jugabilidad diversa, diagnóstico de competencias específicas y generación de escenarios autoevolutivos. Evalúa modelos de visión y lenguaje en el razonamiento estratégico bajo incertidumbre, revelando que los modelos de última generación tienen dificultades con la coordinación multiagente y tareas a gran escala.
RTSGameBench: Un benchmark de RTS para el razonamiento estratégico
Traducido del English → Español