Un usuario informa haber notado salidas menos confiables de vLLM en comparación con llama.cpp, incluyendo errores de formato, olvido del contexto y menor calidad del código. Preguntan si tales diferencias provienen de la cuantización, plantillas de chat, problemas del analizador o errores de configuración, y buscan confirmación sobre si otros han observado discrepancias similares en la calidad entre los backends de inferencia.
¿Alguien más ha encontrado que las salidas de vLLM son peores que las de llama.cpp?
Traducido del English → Español