Qwen3/Gemma3 Candle CPU मोड में समान-लंबाई वाले बैचों के लिए एटेंशन मास्क को छोड़ देता है

एक उपयोगकर्ता ने Hugging Face text-embeddings-inference लाइब्रेरी में Qwen3 और Gemma3 मॉडलों को प्रभावित करने वाली एक गंभीर बग की रिपोर्ट की है। यह समस्या तब उत्पन्न होती है जब CPU पर समवर्ती अनुरोधों के साथ इनफरेंस चलाया जाता है, जिससे महत्वपूर्ण सटीकता में कमी आती है। विशेष रूप से, Candle बैकएंड उन बैचों के लिए एटेंशन मास्क को गलत तरीके से छोड़ देता है जिनमें सभी इनपुट अनुक्रम समान लंबाई के होते हैं। यह दोष इन विशिष्ट स्थितियों के तहत उत्पन्न एम्बेडिंग्स की विश्वसनीयता को कमजोर करता है। इस समस्या को हल करने के लिए, लेखक ने एक पल रिक्वेस्ट जमा की जिसमें एक ठोस समाधान था जिसे उनके स्थानीय मशीनों पर व्यापक रूप से परखा गया। यह बग बैच्ड इनपुट्स हैंडल करते समय CPU-आधारित एम्बेडिंग सेवाओं में संभावित स्थिरता जोखिमों को उजागर करता है।