Un usuario informa que Qwen3.6-27B se ejecuta significativamente menos de manera inteligente en vLLM que en llama.cpp, presentando problemas como ignorar mensajes, alucinar llamadas a herramientas y no reconocer el contexto de conversaciones previas. A pesar de la configuración adecuada y las plantillas de prompt, el modelo parece perder coherencia e interpretar mal su propio uso de herramientas, con errores que ocurren de manera consistente en lugar de esporádica.
Qwen3.6 27B más tonto en vLLM comparado con llama.cpp
Traducido del English → Español