Qwen3/Gemma3 Candle ignore les masques d'attention pour les lots de longueur égale en mode CPU

Un utilisateur a signalé un bug critique dans la bibliothèque text-embeddings-inference de Hugging Face affectant les modèles Qwen3 et Gemma3. Le problème se produit lors de l'inférence sur des CPUs avec des requêtes concurrentes, entraînant une dégradation significative de la précision. Plus précisément, le backend Candle ignore incorrectement les masques d'attention pour les lots où toutes les séquences d'entrée ont des longueurs égales. Ce défaut compromet la fiabilité des embeddings générés dans ces conditions spécifiques. Pour résoudre le problème, l'auteur a soumis une pull request contenant une correction qui a été rigoureusement testée sur ses machines locales. Le bug met en évidence des risques potentiels de stabilité pour les services d'embedding basés sur CPU gérant des entrées par lots.