Исследователи расширили игру «Волки и овцы», добавив роль Шута, чтобы создать триадную среду социального дедуктирования, требующую рассуждений над тремя противоположными функциями полезности, что бросает вызов возможностям больших языковых моделей в области теории разума. Оценки на GPT-4.1, DeepSeek-V3.1 и Llama-3.3-70B показали, что хотя Шут выигрывал 60–70% игр, волки GPT-4.1 часто голосовали за изгнание Шута в первый день в 60–70% случаев — это самоподрывающее действие, обусловленное языковыми приоритетами.

  • Фракция Шутов выигрывает 60–70% игр, тогда как волки никогда не превышают уровень побед в 20%.
  • Волки GPT-4.1 голосовали за изгнание Шута в первый день в 60–70% игр, демонстрируя строго самоподрывающееся поведение.
  • Самостоятельное обучение улучшило результаты для DeepSeek и Llama, но навредило GPT-4.1, при этом цена ложилась на плечи крестьян, а не волков.
  • Только DeepSeek освоил тонкую стратегию выглядеть подозрительно, не выглядя намеренно подозрительным.

Эта триадная структура стимулов раскрывает слой многоагентного рассуждения, который остается невидимым в диадических играх дедуктирования, подчеркивая ограничения в том, как текущие модели симулируют стимулы оппонентов.