Qwen3/Gemma3のCandleはCPUモードで等長のバッチにおいてアテンションマスクをスキップする

あるユーザーが、Qwen3およびGemma3モデルに影響を与えるHugging Faceのtext-embeddings-inferenceライブラリの重大なバグを報告しました。この問題は、同時実行リクエストがあるCPU上で推論を実行する際に発生し、精度の大幅な低下を引き起こします。具体的には、Candleバックエンドは、すべての入力シーケンスの長さが等しいバッチに対してアテンションマスクを誤ってスキップします。この欠陥により、これらの特定の条件下で生成される埋め込みの信頼性が損なわれます。この問題を解決するため、著者はローカルマシンで徹底的にテストされた修正を含むプルリクエストを提出しました。このバグは、バッチ入力を処理するCPUベースの埋め込みサービスにおける潜在的な安定性リスクを浮き彫りにしています。