Пользователь сообщил об ошибке в библиотеке text-embeddings-inference от Hugging Face, затрагивающей модели Qwen3 и Gemma3. Проблема возникает при выполнении инференса на процессорах с одновременными запросами, что приводит к значительному снижению точности. В частности, бэкенд Candle неправильно пропускает маски внимания для батчей, в которых все входные последовательности имеют одинаковую длину. Этот дефект ставит под угрозу надежность генерируемых эмбеддингов при таких условиях. Для решения проблемы автор подготовил pull request с исправлением, которое было тщательно протестировано на его локальных машинах. Ошибка подчеркивает потенциальные риски стабильности сервисов встраивания на основе CPU, обрабатывающих батчированные входные данные.
Qwen3/Gemma3 пропускают маски внимания для батчей одинаковой длины в режиме CPU
Переведено с English → Русский