Пользователь сообщает, что замечает менее надежные выводы от vLLM по сравнению с llama.cpp, включая ошибки форматирования, потерю контекста и снижение качества кода. Он спрашивает, откуда могут исходить такие различия — от квантования, шаблонов чата, проблем с парсером или ошибок настройки, и ищет подтверждение, что другие наблюдали подобные разрывы в качестве между инференс-бэкендами.