Les chercheurs présentent BaseRT, un runtime d'inférence Metal natif pour les grands modèles de langage sur Apple Silicon qui atteint le débit d'inférence le plus élevé jamais rapporté à ce jour. En utilisant la fusion de noyaux spécifique au processeur et une optimisation consciente de la mémoire unifiée, il surmonte les surcharges présentes dans les frameworks existants comme llama.cpp et MLX.
- Prend en charge huit formats de quantification (Q2 à FP16) sur tous les appareils Apple M-series.
- Atteint un débit de décodage jusqu'à 1,56x supérieur à celui de llama.cpp et 1,35x supérieur à celui de MLX sur les appareils M3 et M4 Pro.
- Montre des marges substantiellement plus grandes pour le prefill des modèles mixture-of-experts.
- Maintient un débit de classe mondiale cohérent pour des modèles allant de moins de 1B à 30B paramètres.
Les auteurs soutiennent que les runtimes locaux optimisés pour la performance sont essentiels pour le paradigme émergent de l'inférence edge, aidant à répondre aux exigences de confidentialité, aux contraintes de latence et à la pression des coûts cloud.