Un desarrollador ha publicado en código abierto el código de un kernel de inferencia basado en MLX diseñado para ejecutar el modelo Gemma 12B localmente en hardware de consumo, dirigido específicamente a MacBooks con chips de la serie M.
El proyecto se centra en las limitaciones de un MacBook Pro de 16 GB y busca cerrar la brecha entre las bibliotecas MLX y CUDA para el desarrollo local de modelos. El autor señala que, aunque se intentó integrar DSpark, los requisitos de memoria del modelo drafter superaron el umbral de 16 GB, lo que sugiere trabajo futuro en cuantización o en entrenar un drafter más pequeño.
El enfoque actual está en finalizar la integración nativa de gráficos y validar la Predicción Multi-Tokens (MTP), con un rendimiento teórico limitado a 20-30 tokens por segundo debido a las limitaciones del ancho de banda de memoria. El código se proporciona como un recurso experimental de aprendizaje en lugar de una solución comercializada, aunque el autor planea usarlo como línea base para optimizar los modelos Gemma en hardware NVIDIA.