Эра LLM: Стратегический бенчмарк 1v1 для рассуждений, дипломатии и надёжности

Авторы представляют Age of LLM, пошаговый бенчмарк 1v1, в котором две большие языковые модели соревнуются на сетке 13x7, чтобы уничтожить базу противника в условиях тумана войны и полной дипломатии. Этот приватный движок смягчает загрязнение данных за счёт использования свежих случайных семян карт и оппонентов для каждого матча.

Бенчмарк оценивает 15 моделей рассуждения по результатам 54 матчей и 5258 действий.
Ядерные рейды доминируют в исходах (78% на подкорпусе с согласованными правилами), что обусловлено механическими правилами запуска, а не провалом когнитивного сдерживания.
Военное завоевание редкое, но более быстрое (12,3 против 18,9 ходов), тогда как дипломатия распространена, но редко завершается.
Примерно 58% нелегальных действий являются ошибками тумана или состояния, служа мерой отслеживания убеждений.
Слабое звено связывает надёжность с победой, хотя корпус слишком мал для определённого ранжирования.

Пошаговые трассировки дают возможность заглянуть в то, как LLM рассуждают в условиях враждебной неопределённости, раскрывая аспекты отслеживания убеждений и спонтанного обмана.