Los autores presentan Age of LLM, una prueba 1v1 por turnos donde dos modelos de lenguaje grandes compiten en una cuadrícula de 13x7 para destruir la base enemiga bajo condiciones de niebla de guerra y diplomacia completa. Este motor privado mitiga la contaminación de datos mediante el uso de semillas de mapa aleatorias nuevas y oponentes distintos para cada partida.
- La prueba evalúa 15 modelos de razonamiento en 54 partidas y 5.258 acciones.
- Los ataques nucleares tempranos dominan los resultados (78% en el subcorpus coherente con las reglas), impulsados por las reglas mecánicas de lanzamiento en lugar de un fallo en la disuasión cognitiva.
- La conquista militar es rara pero más rápida (12,3 frente a 18,9 turnos), mientras que la diplomacia es prolífica pero raramente se consuma.
- Aproximadamente el 58% de las acciones ilegales son errores de niebla o de estado, sirviendo como medida del seguimiento de creencias.
- Un eslabón débil asocia la fiabilidad con ganar, aunque el corpus es demasiado pequeño para un ranking definitivo.
Los rastros paso a paso proporcionan una perspectiva sobre cómo los LLM razonan bajo incertidumbre adversarial, revelando aspectos del seguimiento de creencias y el engaño espontáneo.