BaseRT offre une inférence LLM de classe mondiale sur Apple Silicon via Metal natif

Les chercheurs présentent BaseRT, un runtime d'inférence Metal natif pour les grands modèles de langage sur Apple Silicon qui atteint le débit d'inférence le plus élevé jamais rapporté à ce jour. En utilisant la fusion de noyaux spécifique au processeur et une optimisation consciente de la mémoire unifiée, il surmonte les surcharges présentes dans les frameworks existants comme llama.cpp et MLX.

Prend en charge huit formats de quantification (Q2 à FP16) sur tous les appareils Apple M-series.
Atteint un débit de décodage jusqu'à 1,56x supérieur à celui de llama.cpp et 1,35x supérieur à celui de MLX sur les appareils M3 et M4 Pro.
Montre des marges substantiellement plus grandes pour le prefill des modèles mixture-of-experts.
Maintient un débit de classe mondiale cohérent pour des modèles allant de moins de 1B à 30B paramètres.

Les auteurs soutiennent que les runtimes locaux optimisés pour la performance sont essentiels pour le paradigme émergent de l'inférence edge, aidant à répondre aux exigences de confidentialité, aux contraintes de latence et à la pression des coûts cloud.