Исследователи представляют BaseRT, нативный runtime вывода для больших языковых моделей на базе Apple Silicon с использованием Metal, который демонстрирует самую высокую зафиксированную пропускную способность вывода на сегодняшний день. За счет использования специфичных для чипа слияний ядер и оптимизации с учетом единой памяти он преодолевает накладные расходы, присущие существующим фреймворкам, таким как llama.cpp и MLX.

  • Поддерживает восемь форматов квантования (от Q2 до FP16) на всех устройствах Apple серии M.
  • Демонстрирует пропускную способность декодирования до 1.56x выше, чем у llama.cpp, и до 1.35x выше, чем у MLX, на устройствах M3 и M4 Pro.
  • Показывает значительно большие преимущества при префилле для моделей типа mixture-of-experts.
  • Поддерживает стабильно лучшую в классе пропускную способность для моделей от менее 1B до 30B параметров.

Авторы утверждают, что оптимизированные по производительности локальные runtimes критически важны для развивающейся парадигмы edge inference, помогая решать требования конфиденциальности, ограничения задержек и давление облачных затрат.