一名用户报告了 Hugging Face text-embeddings-inference 库中的一个严重 bug,该问题影响 Qwen3 和 Gemma3 模型。当在 CPU 上处理并发请求进行推理时会出现此问题,导致准确率显著下降。具体而言,Candle 后端错误地跳过了所有输入序列长度相等的批次的注意力掩码。这一缺陷损害了在这些特定条件下生成的嵌入的可靠性。为解决该问题,作者提交了一个包含修复方案的拉取请求,并在本地机器上进行了充分测试。该 bug 凸显了处理批量输入的基于 CPU 的嵌入服务中潜在的稳定性风险。