Pesquisadores apresentam o BaseRT, um runtime de inferência nativo com Metal para modelos de linguagem grande no Apple Silicon que alcança a maior taxa de inferência reportada até hoje. Ao utilizar fusão de kernels específica do chip e otimização consciente da memória unificada, ele supera a sobrecarga encontrada em frameworks existentes como llama.cpp e MLX.

  • Suporta oito formatos de quantização (Q2 a FP16) em todos os dispositivos Apple série M.
  • Alcança até 1.56x maior throughput de decodificação que llama.cpp e 1.35x maior que MLX em dispositivos M3 e M4 Pro.
  • Mostra margens substancialmente maiores no prefill para modelos mixture-of-experts.
  • Mantém throughput consistentemente de primeira classe para modelos que variam de menos de 1B a 30B parâmetros.

Os autores argumentam que runtimes locais otimizados por desempenho são críticos para o paradigma emergente de inferência edge, ajudando a atender requisitos de privacidade, restrições de latência e pressões de custos em nuvem.