LordNeel은 Qwen3.5-MoE 기반의 35B Mixture of Experts 에이전트 모델인 InternScience의 Agents-A1에 대한 GGUF 양자화를 게시했습니다. 이 릴리스에는 Blackwell GPU용으로 최적화된 NVFP4 형식과 추론 속도를 개선하기 위한 멀티 토큰 예측(MTP) 추론이 통합되어 있습니다.
- 모델은 256K 컨텍스트 창을 가지며, 256개의 전문가 간 약 3B의 활성 파라미터를 특징으로 하며, 장기 검색 및 도구 호출용으로 설계되었습니다.
- 품질은 32개의 프롬프트에 대한 상위 64개 다음 토큰 분포에 대한 KL 발산으로 측정되었으며, 다양한 양자화 수준이 BF16과 비교되었습니다.
- NVFP4 빌드에는 FP4 지원 빌드가 가능한 Blackwell GPU가 필요하며, IQ4_XS 및 Q5_K_M과 같은 다른 형식은 컴팩트함 또는 BF16에 가까운 충실도를 제공합니다.
- MTP 추론은 별도의 사이드카 체크포인트에서 가져와 단일 사용자 서빙에서 최대 1.22배의 처리량 증가를 달성했습니다.
- Q4_K_M-MTP(n_max=1)에 대한 초안 수용률은 91.5%에 도달했으며, 비전 지원 없이 텍스트 전용 기능도 유지합니다.
이 릴리스는 특정 양자화 기술과 추론을 통해 크기, 품질 및 속도 사이의 균형을 맞추면서 Agents-A1 모델을 로컬에서 실행하기 위한 최적화된 옵션을 사용자에게 제공합니다.