Un développeur a open-sourcé le code d'un noyau d'inférence basé sur MLX conçu pour exécuter le modèle Gemma 12B localement sur du matériel grand public, en ciblant spécifiquement les MacBooks de série M.

Le projet est construit autour des contraintes d'un MacBook Pro 16 Go et vise à combler l'écart entre les bibliothèques MLX et CUDA pour le développement local de modèles. L'auteur note que bien que l'intégration de DSpark ait été tentée, les exigences mémoire du modèle drafter ont dépassé le seuil de 16 Go, suggérant des travaux futurs sur la quantification ou l'entraînement d'un drafter plus petit.

L'accent actuel est mis sur la finalisation de l'intégration native du graphe et la validation de la Prédiction Multi-Tokens (MTP), avec un débit théorique plafonné à 20-30 tokens par seconde en raison des limites de bande passante mémoire. Le code est fourni comme une ressource d'apprentissage expérimentale plutôt que comme une solution industrialisée, bien que l'auteur prévoit de l'utiliser comme base pour optimiser les modèles Gemma sur du matériel NVIDIA.