media r/LocalLLaMA · 1 小时前 · 来源： 3 天前 · open_models

由于隐藏的系统增强，闭源模型基准差距可能比假设的更小

译自 English → 中文

文章认为，闭源和开源模型之间的性能差距可能被夸大了，因为基准测试比较的是模型的原始推理与完整的产品生态系统。闭源提供商可以通过后端技术（如 RAG、提示预处理和专门的专家模型）显著提升结果，而不披露这些附加内容。

基准测试通常将 GLM 的原始推理与 Claude 的整个产品套件进行比较，造成不公平的比较。
提供商可能使用隐藏的内置工具调用、上下文相关的系统提示或 "clown-car MoE" 架构来改进输出。
Anthropic 已经隐藏了推理轨迹并限制了对完整对话的访问，从而掩盖了这些增强功能。
有可能在隔离的情况下，没有任何单个闭源模型的推理输出实际上优于开源模型。

作者建议，如果没有对后端处理的可见性，就不可能准确评估底层模型的真实能力。

重要性 1/3 r/LocalLLaMA Benchmark results