Qwen3/Gemma3 Candle Lewati Masker Perhatian untuk Batch Panjang Sama dalam Mode CPU

Seorang pengguna telah melaporkan bug kritis di perpustakaan text-embeddings-inference Hugging Face yang memengaruhi model Qwen3 dan Gemma3. Masalah ini muncul saat menjalankan inferensi pada CPU dengan permintaan konkuren, menyebabkan penurunan akurasi yang signifikan. Secara khusus, backend Candle secara keliru melewatkan masker perhatian untuk batch di mana semua sekuens input memiliki panjang yang sama. Cacat ini mengompromikan keandalan embedding yang dihasilkan dalam kondisi spesifik tersebut. Untuk mengatasi masalah ini, penulis mengajukan pull request yang berisi perbaikan yang telah diuji secara menyeluruh di mesin lokal mereka. Bug ini menyoroti risiko stabilitas potensial pada layanan embedding berbasis CPU yang menangani input batched.