Qwen3/Gemma3 Pula Máscaras de Atenção para Lotes de Comprimento Igual no Modo CPU

Um usuário relatou um bug crítico na biblioteca text-embeddings-inference do Hugging Face que afeta os modelos Qwen3 e Gemma3. O problema ocorre ao executar inferência em CPUs com solicitações concorrentes, levando a uma degradação significativa da precisão. Especificamente, o backend Candle pula incorretamente as máscaras de atenção para lotes onde todas as sequências de entrada têm comprimentos iguais. Este defeito compromete a confiabilidade dos embeddings gerados nessas condições específicas. Para resolver o problema, o autor submeteu um pull request contendo uma correção que foi minuciosamente testada em suas máquinas locais. O bug destaca riscos potenciais de estabilidade em serviços de embedding baseados em CPU que processam entradas em lotes.