연구자들은 Apple Silicon의 대규모 언어 모델을 위한 네이티브 Metal 추론 런타임인 BaseRT를 발표했으며, 이는 지금까지 보고된 것 중 가장 높은 추론 처리량을 달성했습니다. 칩별 커널 융합과 통합 메모리 인식 최적화를 활용하여 llama.cpp 및 MLX와 같은 기존 프레임워크에서 발견되는 오버헤드를 극복합니다.
- 모든 Apple M 시리즈 장치에서 Q2부터 FP16까지 8가지 양자화 형식을 지원합니다.
- M3 및 M4 Pro 장치에서 llama.cpp보다 최대 1.56배, MLX보다 1.35배 높은 디코드 처리량을 달성했습니다.
- mixture-of-experts 모델의 prefill 작업에서 상당히 큰 마진을 보입니다.
- 1B 미만부터 30B 파라미터에 이르는 모델에 걸쳐 일관된 최고 수준의 처리량을 유지합니다.
저자들은 성능 최적화된 로컬 런타임이 프라이버시 요구사항, 지연 시간 제약 및 클라우드 비용 압박을 해결하는 데 도움이 되는新興 에지 추론 패러다임에서 중요하다고 주장합니다.