本文展示了将单个模型与混合智能体(MoA)配置在六个任务上进行比较的基准测试结果:Bug、Tool、Arch、Clinical、DLQ以及总体平均值。评估工具链使用Hermes Agent v0.18,分数由ChatGPT 5.5和Claude opus 4.8根据正确性、完整性、深度、可操作性、清晰度和信任度的权重标准生成。

  • 排名第一的配置是一个MoA,使用Gemma-4-12B-4bit(vLLM)、Ornith1.0-35B-Q4_K_M(llama.cpp)和Qwen-3.6-27B-4bit(vLLM)作为草稿生成器,以Qwen-3.6-27B-4bit(vLLM)作为聚合器,平均得分为86.7。
  • 排名第二的MoA配置使用DeepSeek-v4-Pro (cloud)作为聚合器,总体得分为85.9。
  • 表现最好的单个模型是Qwen3.6-35B-A3B-Q4_K_M(llama.cpp),排名第三,平均分为85.2,其次是Qwen-3.6-27B-4bit(vLLM)排名第六,得分为84.6。
  • Nemotron 2 Cascade Q4_K_M(llama.cpp)作为单个模型表现不佳(排名第14,得分5.8),在MoA设置中用作聚合器时也产生了较低的结果。

结果表明,特定的MoA配置可以优于大型单个模型,特别是在需要高正确性和完整性的任务中。