Los investigadores ampliaron el juego del Lobo con un rol de Bufón para crear un entorno de deducción social triádico que requiere razonamiento a través de tres funciones de utilidad opuestas, desafiando las capacidades de teoría de la mente de los modelos de lenguaje grandes. Las evaluaciones en GPT-4.1, DeepSeek-V3.1 y Llama-3.3-70B revelaron que, aunque el Bufón ganó el 60-70% de las partidas, los lobos de GPT-4.1 votaron frecuentemente para expulsar al Bufón en el día 1 en el 60-70% de los casos, una acción autodestructiva impulsada por priores lingüísticos.

  • La facción del Bufón gana el 60-70% de las partidas mientras que los Lobos nunca superan una tasa de victoria del 20%.
  • Los lobos de GPT-4.1 votaron para expulsar al Bufón en el día 1 en el 60-70% de las partidas, demostrando un comportamiento estrictamente autodestructivo.
  • El auto-aprendizaje mejoró el rendimiento para DeepSeek y Llama pero perjudicó a GPT-4.1, con el costo recayendo sobre los Aldeanos en lugar de los Lobos.
  • Solo DeepSeek aprendió la estrategia sutil de parecer sospechoso sin parecer intencionalmente sospechoso.

Esta estructura de incentivos triádicos expone una capa de razonamiento multi-agente que los juegos de deducción díada dejan invisible, destacando las limitaciones en cómo los modelos actuales simulan los incentivos del oponente.