Los investigadores presentan BaseRT, un runtime de inferencia nativo con Metal para modelos de lenguaje grande en Apple Silicon que logra la mayor tasa de inferencia reportada hasta la fecha. Al utilizar fusión de kernels específica del chip y optimización consciente de la memoria unificada, supera la sobrecarga presente en frameworks existentes como llama.cpp y MLX.
- Soporta ocho formatos de cuantización (Q2 a FP16) en todos los dispositivos Apple serie M.
- Logra una tasa de decodificación hasta 1.56x mayor que llama.cpp y 1.35x mayor que MLX en dispositivos M3 y M4 Pro.
- Muestra márgenes sustancialmente mayores en el prefill para modelos mixture-of-experts.
- Mantiene una tasa de inferencia consistentemente de primera clase para modelos que van desde menos de 1B hasta 30B parámetros.
Los autores argumentan que los runtimes locales optimizados por rendimiento son críticos para el emergente paradigma de inferencia edge, ayudando a abordar requisitos de privacidad, restricciones de latencia y presiones de costos en la nube.