Авторы представляют Age of LLM, пошаговый бенчмарк 1v1, в котором две большие языковые модели соревнуются на сетке 13x7, чтобы уничтожить базу противника в условиях тумана войны и полной дипломатии. Этот приватный движок смягчает загрязнение данных за счёт использования свежих случайных семян карт и оппонентов для каждого матча.
- Бенчмарк оценивает 15 моделей рассуждения по результатам 54 матчей и 5258 действий.
- Ядерные рейды доминируют в исходах (78% на подкорпусе с согласованными правилами), что обусловлено механическими правилами запуска, а не провалом когнитивного сдерживания.
- Военное завоевание редкое, но более быстрое (12,3 против 18,9 ходов), тогда как дипломатия распространена, но редко завершается.
- Примерно 58% нелегальных действий являются ошибками тумана или состояния, служа мерой отслеживания убеждений.
- Слабое звено связывает надёжность с победой, хотя корпус слишком мал для определённого ранжирования.
Пошаговые трассировки дают возможность заглянуть в то, как LLM рассуждают в условиях враждебной неопределённости, раскрывая аспекты отслеживания убеждений и спонтанного обмана.