Era de los LLM: Benchmark para el razonamiento y la diplomacia de los LLM

Age of LLM introduce un benchmark por turnos 1v1 donde dos LLM compiten en una cuadrícula de 13x7 bajo niebla de guerra, diplomacia completa y estrictas reglas de fiabilidad JSON. Los hallazgos muestran que la carrera nuclear domina, la diplomacia es prolífica pero rara vez tiene éxito, y las acciones ilegales revelan errores de seguimiento de creencias, con un vínculo débil entre fiabilidad y victoria. El corpus es pequeño y desequilibrado, y los resultados ofrecen una visión preliminar del razonamiento de los LLM bajo incertidumbre adversarial.