文章认为,闭源和开源模型之间的性能差距可能被夸大了,因为基准测试比较的是模型的原始推理与完整的产品生态系统。闭源提供商可以通过后端技术(如 RAG、提示预处理和专门的专家模型)显著提升结果,而不披露这些附加内容。
- 基准测试通常将 GLM 的原始推理与 Claude 的整个产品套件进行比较,造成不公平的比较。
- 提供商可能使用隐藏的内置工具调用、上下文相关的系统提示或 "clown-car MoE" 架构来改进输出。
- Anthropic 已经隐藏了推理轨迹并限制了对完整对话的访问,从而掩盖了这些增强功能。
- 有可能在隔离的情况下,没有任何单个闭源模型的推理输出实际上优于开源模型。
作者建议,如果没有对后端处理的可见性,就不可能准确评估底层模型的真实能力。