한 사용자가 64GB RAM이 탑재된 M1 Max Mac에서 실행 중인 InternScience/Agents-A1-Q8_0-GGUF 모델에 대한 개인적인 피드백을 공유했습니다. 이 모델은 전체 262K 컨텍스트 창을 사용하여 프리필에서 초당 약 500개 토큰, 생성에서 초당 40개 토큰을 달성합니다.
- 모델은 권장 매개변수(온도 0.85 및 top-p 0.95 포함)를 사용하는 llama-server를 통해 Hugging Face를 통해 접근됩니다.
- 성능 벤치마크는 지정된 하드웨어에서 약 500 t/s pp 및 40 t/s tg의 속도를 나타냅니다.
- 초기 사용 사례는 Qwen 모델과 비교 가능한 능력을 시사하지만, 사용자는 결정적인 비교를 하기에는 아직 이르다고 지적합니다.
이 게시물은 로컬 에이전트 기반 워크로우에서의 실행 가능성을 강조하며 다른 사용자에게도 해당 모델에 대한 경험을 공유하도록 요청합니다.