Разработчик ищет помощь сообщества для тестирования поддержки многозадачного прогнозирования (MTP) модели GLM-4.7-Flash в рамках фреймворка llama.cpp. Автор признаёт, что предыдущие модели, такие как GLM Air и GLM Flash, устарели, но выражает личный интерес к включению MTP для них. Запрос ориентирован на пользователей, обладающих необходимым оборудованием для запуска GLM-4.7-Flash и техническими навыками компиляции llama.cpp из исходного кода. Участникам предлагается оценить функциональность предоставленной модели GGUF и сообщить о любых возникших проблемах. Кроме того, тестировщикам поручено измерить и поделиться показателями прироста скорости производительности, достигнутого благодаря внедрению MTP. Разработчик загрузил тестовую модель в репозиторий Hugging Face для немедленного доступа. Пользователям, нуждающимся в меньших вариантах квантования, предлагается связаться с автором напрямую для получения альтернативных версий.
Разработчик просит протестировать поддержку MTP для GLM-4.7-Flash через llama.cpp
Переведено с English → Русский