Qwen3/Gemma3, CPU 모드에서 동등 길이 배치에 대해 어텐션 마스크를 건너뜀

사용자가 Qwen3 및 Gemma3 모델에 영향을 미치는 Hugging Face text-embeddings-inference 라이브러리의 치명적인 버그를 보고했습니다. 이 문제는 동시 요청으로 CPU에서 추론을 실행할 때 발생하며, 심각한 정확도 저하를 초래합니다. 구체적으로, Candle 백엔드는 모든 입력 시퀀스의 길이가 동일한 배치에 대해 어텐션 마스크를 잘못 건너뜁니다. 이 결함은 이러한 특정 조건 하에서 생성된 임베딩의 신뢰성을 훼손합니다. 문제를 해결하기 위해 작성자는 로컬 머신에서 철저히 테스트된 수정 사항을 포함한 풀 리퀘스트를 제출했습니다. 이 버그는 배치 입력을 처리하는 CPU 기반 임베딩 서비스의 잠재적 안정성 위험을 드러냅니다.