Qwen3/Gemma3 在 CPU 模式下对等长批次跳过注意力掩码

一名用户报告了 Hugging Face text-embeddings-inference 库中的一个严重 bug，该问题影响 Qwen3 和 Gemma3 模型。当在 CPU 上处理并发请求进行推理时会出现此问题，导致准确率显著下降。具体而言，Candle 后端错误地跳过了所有输入序列长度相等的批次的注意力掩码。这一缺陷损害了在这些特定条件下生成的嵌入的可靠性。为解决该问题，作者提交了一个包含修复方案的拉取请求，并在本地机器上进行了充分测试。该 bug 凸显了处理批量输入的基于 CPU 的嵌入服务中潜在的稳定性风险。