Para peneliti menyajikan BaseRT, runtime inferensi Metal asli untuk model bahasa besar di Apple Silicon yang mencapai throughput inferensi tertinggi yang pernah dilaporkan hingga saat ini. Dengan memanfaatkan fusi kernel spesifik chip dan optimasi yang sadar memori terpadu, BaseRT mengatasi overhead yang ditemukan dalam framework yang ada seperti llama.cpp dan MLX.

  • Mendukung delapan format kuantisasi (Q2 hingga FP16) di semua perangkat Apple M-series.
  • Mencapai throughput decode hingga 1,56x lebih tinggi daripada llama.cpp dan 1,35x lebih tinggi daripada MLX pada perangkat M3 dan M4 Pro.
  • Menunjukkan margin yang jauh lebih besar untuk prefill pada model mixture-of-experts.
  • Mempertahankan throughput kelas terbaik yang konsisten untuk model mulai dari di bawah 1B hingga 30B parameter.

Para penulis berargumen bahwa runtime lokal yang dioptimalkan untuk kinerja sangat penting bagi paradigma inferensi edge yang muncul, membantu mengatasi persyaratan privasi, batasan latensi, dan tekanan biaya cloud.