Um desenvolvedor abriu o código de um kernel de inferência baseado em MLX projetado para executar o modelo Gemma 12B localmente em hardware de consumo, direcionado especificamente a MacBooks com chips da série M.

O projeto é construído em torno das restrições de um MacBook Pro de 16 GB e visa preencher a lacuna entre as bibliotecas MLX e CUDA para o desenvolvimento local de modelos. O autor observa que, embora tenha sido tentada a integração do DSpark, os requisitos de memória do modelo drafter excederam o limite de 16 GB, sugerindo trabalho futuro em quantização ou no treinamento de um drafter menor.

O foco atual está na finalização da integração nativa de gráficos e na validação da Previsão Multi-Token (MTP), com a taxa de transferência teórica limitada a 20-30 tokens por segundo devido às limitações da largura de banda da memória. O código é fornecido como um recurso experimental de aprendizado, em vez de uma solução comercializada, embora o autor planeje usá-lo como linha de base para otimizar os modelos Gemma em hardware NVIDIA.