Авторы представляют Age of LLM, пошаговый бенчмарк 1v1, в котором две большие языковые модели соревнуются на сетке 13x7, чтобы уничтожить базу противника в условиях тумана войны и полной дипломатии. Этот приватный движок смягчает загрязнение данных за счёт использования свежих случайных семян карт и оппонентов для каждого матча.

  • Бенчмарк оценивает 15 моделей рассуждения по результатам 54 матчей и 5258 действий.
  • Ядерные рейды доминируют в исходах (78% на подкорпусе с согласованными правилами), что обусловлено механическими правилами запуска, а не провалом когнитивного сдерживания.
  • Военное завоевание редкое, но более быстрое (12,3 против 18,9 ходов), тогда как дипломатия распространена, но редко завершается.
  • Примерно 58% нелегальных действий являются ошибками тумана или состояния, служа мерой отслеживания убеждений.
  • Слабое звено связывает надёжность с победой, хотя корпус слишком мал для определённого ранжирования.

Пошаговые трассировки дают возможность заглянуть в то, как LLM рассуждают в условиях враждебной неопределённости, раскрывая аспекты отслеживания убеждений и спонтанного обмана.