Era de los LLM: Una prueba estratégica 1v1 para razonamiento, diplomacia y fiabilidad
Los autores presentan Age of LLM, una prueba 1v1 por turnos donde dos modelos de lenguaje grandes compiten en una cuadrícula de 13x7 para destruir la base enemiga bajo condiciones de niebla de guerra y diplomacia completa. Este motor privado mitiga la contaminación de datos mediante el uso de semillas de mapa aleatorias nuevas y oponentes distintos para cada partida.