Lobo de Tres Cabezas: Un Rol de Bufón para la Teoría de la Mente Multi-salto en LLMs

Los investigadores ampliaron el juego del Lobo con un rol de Bufón para crear un entorno de deducción social triádico que requiere razonamiento a través de tres funciones de utilidad opuestas, desafiando las capacidades de teoría de la mente de los modelos de lenguaje grandes. Las evaluaciones en GPT-4.1, DeepSeek-V3.1 y Llama-3.3-70B revelaron que, aunque el Bufón ganó el 60-70% de las partidas, los lobos de GPT-4.1 votaron frecuentemente para expulsar al Bufón en el día 1 en el 60-70% de los casos, una acción autodestructiva impulsada por priores lingüísticos.

La facción del Bufón gana el 60-70% de las partidas mientras que los Lobos nunca superan una tasa de victoria del 20%.
Los lobos de GPT-4.1 votaron para expulsar al Bufón en el día 1 en el 60-70% de las partidas, demostrando un comportamiento estrictamente autodestructivo.
El auto-aprendizaje mejoró el rendimiento para DeepSeek y Llama pero perjudicó a GPT-4.1, con el costo recayendo sobre los Aldeanos en lugar de los Lobos.

Solo DeepSeek aprendió la estrategia sutil de parecer sospechoso sin parecer intencionalmente sospechoso.

Esta estructura de incentivos triádicos expone una capa de razonamiento multi-agente que los juegos de deducción díada dejan invisible, destacando las limitaciones en cómo los modelos actuales simulan los incentivos del oponente.