Usuarios reportan calidad y eficiencia inferiores con modelos MTP en Qwen 3.6 y Gemma 4
Un usuario que prueba los modelos autoalojados Qwen 3.6 27B y Gemma 4 en cuatro tarjetas RTX 5070 Ti informa que la Predicción Multi-Tokens (MTP) degrada la calidad de salida en comparación con las variantes no-MTP. En tareas de revisión de código, el modelo no-MTP produjo hallazgos más detallados con sugerencias de corrección mientras consumía menos tokens que su contraparte MTP. Las métricas de rendimiento mostraron que la configuración no-MTP logró aproximadamente 2000 tokens de procesamiento de prompts por segundo y una velocidad de generación de 50-60 tokens. Por el contrario, la configuración MTP arrojó velocidades de generación más altas de 100-120 tg/s pero tasas de procesamiento de prompts más bajas alrededor de 1300 pp/s. A pesar del mayor rendimiento de generación, los tiempos de finalización de tareas de agentes en el mundo real fueron solo aproximadamente un 20% más rápidos con MTP debido al mayor consumo de contexto. El usuario utilizó llama.cpp con archivos GGUF específicos de Unsloth y notó experiencias negativas similares al probar Gemma 4.