Un usuario informa haber notado salidas menos confiables de vLLM en comparación con llama.cpp, incluyendo errores de formato, olvido del contexto y menor calidad del código. Preguntan si tales diferencias provienen de la cuantización, plantillas de chat, problemas del analizador o errores de configuración, y buscan confirmación sobre si otros han observado discrepancias similares en la calidad entre los backends de inferencia.