Пользователь, тестирующий самохостинговые модели Qwen 3.6 27B и Gemma 4 на четырех видеокартах RTX 5070 Ti, сообщает, что многозадачное предсказание токенов (MTP) ухудшает качество вывода по сравнению с вариантами без MTP. При задачах рецензирования кода модель без MTP выдавала более детальные результаты с предложениями по исправлению, потребляя меньше токенов, чем её аналог с MTP. Метрики производительности показали, что конфигурация без MTP достигала примерно 2000 обрабатываемых токенов промпта в секунду и скорости генерации 50-60 токенов в секунду. Напротив, конфигурация MTP обеспечивала более высокую скорость генерации 100-120 tg/s, но более низкую скорость обработки промптов около 1300 pp/s. Несмотря на более высокую пропускную способность генерации, реальное время выполнения задач агентами было ускорено с помощью MTP всего на 20% из-за увеличенного потребления контекста. Пользователь использовал llama.cpp со специфичными GGUF-файлами от Unsloth и отметил аналогичный негативный опыт при тестировании Gemma 4.
Пользователи сообщают о снижении качества и эффективности моделей MTP в Qwen 3.6 и Gemma 4
Переведено с English → Русский