Solo与MoA在多个任务上的基准测试

本文展示了将单个模型与混合智能体（MoA）配置在六个任务上进行比较的基准测试结果：Bug、Tool、Arch、Clinical、DLQ以及总体平均值。评估工具链使用Hermes Agent v0.18，分数由ChatGPT 5.5和Claude opus 4.8根据正确性、完整性、深度、可操作性、清晰度和信任度的权重标准生成。

排名第一的配置是一个MoA，使用Gemma-4-12B-4bit(vLLM)、Ornith1.0-35B-Q4_K_M(llama.cpp)和Qwen-3.6-27B-4bit(vLLM)作为草稿生成器，以Qwen-3.6-27B-4bit(vLLM)作为聚合器，平均得分为86.7。
排名第二的MoA配置使用DeepSeek-v4-Pro (cloud)作为聚合器，总体得分为85.9。
表现最好的单个模型是Qwen3.6-35B-A3B-Q4_K_M(llama.cpp)，排名第三，平均分为85.2，其次是Qwen-3.6-27B-4bit(vLLM)排名第六，得分为84.6。
Nemotron 2 Cascade Q4_K_M(llama.cpp)作为单个模型表现不佳（排名第14，得分5.8），在MoA设置中用作聚合器时也产生了较低的结果。

结果表明，特定的MoA配置可以优于大型单个模型，特别是在需要高正确性和完整性的任务中。