Age of LLM вводит турнирный бенчмарк 1 против 1, где два LLM соревнуются на сетке размером 13x7 под условиями тумана, полной дипломатии и строгих правил надежности в формате JSON. Результаты показывают, что ядерный рывок доминирует, дипломатия является распространённой, но редко приводит к успеху, а незаконные действия выявляют ошибки в отслеживании убеждений, при этом между надежностью и победой существует слабая связь. Корпус является малым и несбалансированным, и результаты дают предварительное представление о логическом мышлении LLM в условиях противодействующей неопределённости.
Эра LLM: Бенчмарк для логического мышления и дипломатии в LLM
Переведено с English → Русский