Desarrollador solicita pruebas para soporte de MTP en GLM-4.7-Flash mediante llama.cpp

Un desarrollador busca asistencia de la comunidad para probar el soporte de Predicción Multi-Tokens (MTP) para el modelo GLM-4.7-Flash dentro del marco de trabajo llama.cpp. El autor reconoce que modelos anteriores como GLM Air y GLM Flash están desactualizados, pero expresa un interés personal en habilitar MTP para ellos. La solicitud se dirige específicamente a usuarios que poseen el hardware necesario para ejecutar GLM-4.7-Flash y tienen la capacidad técnica de compilar llama.cpp desde el código fuente. Se pide a los participantes que evalúen la funcionalidad del modelo GGUF proporcionado e informen cualquier problema encontrado. Además, se solicita a los probadores medir y compartir las ganancias de velocidad de rendimiento logradas mediante la implementación de MTP. El desarrollador ha cargado el modelo de prueba en un repositorio de Hugging Face para acceso inmediato. Los usuarios que requieran opciones de cuantización más pequeñas están invitados a contactar al autor directamente para obtener versiones alternativas.