Пользователь сообщает о значительной разнице между результатами Llama benchmark и реальной производительностью модели. Бенчмарки показывают 754 токен/с при предварительной загрузке и 36 токен/с при генерации, однако в реальных условиях наблюдается только 7,98 токена в секунду, с высокой задержкой и плохим пропускным расходом. Отклонение объясняется реальными условиями использования, а не настройками бенчмарка, что указывает на то, что реальная производительность модели значительно ниже скорости, указанной в бенчмарке.
Llama Bench vs Реальное отклонение производительности
Переведено с English → Русский