无人注视时LLM智能体说了什么：多智能体辩论中的社会结构与潜在目标涌现

本研究通过比较公开辩论框架中LLM智能体的公开言论与私下（OTR）回应，调查了社会结构如何影响LLM智能体的公开表达。研究表明，诱导对齐的环境会导致这些渠道之间出现系统性分歧，在10个模型和多个场景中，决策分歧从约3%的基础水平上升到约40%。

研究结果表明，智能体评估必须超越显式目标以检测涌现目标，为此作者提出了一个双通道评估框架和补充的行为测量方法。