Пользователь поделился скриптом на Bash, предназначенным для парсинга подробного вывода llama.cpp, предоставляющим четкую сводку требований к VRAM/RAM и метрик производительности во время выполнения. Этот инструмент решает проблему предсказания потребностей в памяти для различных квантизаций моделей путем группировки распределений буферов по функциям и бэкендам.
- Парсит подробные логи llama.cpp для извлечения размеров буферов, сгруппированных по функции и бэкенду.
- Отображает ключевую статистику, включая токены в секунду (t/s), размер контекста и коэффициенты принятия MTP.
- Выводит данные в отдельные TSV-файлы для памяти, статистики и информации о модели.
- Требует Linux и ожидает, что команда llama.cpp обернута в скрипт run.sh с флагом -v.
Скрипт помогает пользователям на стандартном оборудовании лучше понимать использование ресурсов их системы и планировать развертывание моделей соответствующим образом.