Glimmer 1 es un modelo de lenguaje de 10.000 parámetros entrenado con 500K tokens de FineWeb-Edu. Cuenta con una ventana de contexto de 512 tokens, una arquitectura Llama estándar con 16 dimensiones ocultas, 2 capas, 4 cabezales de atención y 1 cabezal KV utilizando GQA, y está disponible en Hugging Face.