Qwen3/Gemma3 Candle omite las máscaras de atención para lotes de longitud igual en modo CPU

Un usuario ha reportado un error crítico en la biblioteca text-embeddings-inference de Hugging Face que afecta a los modelos Qwen3 y Gemma3. El problema surge al ejecutar inferencia en CPUs con solicitudes concurrentes, lo que provoca una degradación significativa de la precisión. Específicamente, el backend Candle omite incorrectamente las máscaras de atención para lotes donde todas las secuencias de entrada tienen longitudes iguales. Este defecto compromete la fiabilidad de los embeddings generados bajo estas condiciones específicas. Para abordar el problema, el autor presentó una solicitud de extracción (pull request) que contiene una corrección probada exhaustivamente en sus máquinas locales. El error resalta posibles riesgos de estabilidad en servicios de embedding basados en CPU que manejan entradas por lotes.