Скрипт для мониторинга llama_cpp и анализа использования памяти

Пользователь поделился скриптом на Bash, предназначенным для парсинга подробного вывода llama.cpp, предоставляющим четкую сводку требований к VRAM/RAM и метрик производительности во время выполнения. Этот инструмент решает проблему предсказания потребностей в памяти для различных квантизаций моделей путем группировки распределений буферов по функциям и бэкендам.

Парсит подробные логи llama.cpp для извлечения размеров буферов, сгруппированных по функции и бэкенду.
Отображает ключевую статистику, включая токены в секунду (t/s), размер контекста и коэффициенты принятия MTP.
Выводит данные в отдельные TSV-файлы для памяти, статистики и информации о модели.
Требует Linux и ожидает, что команда llama.cpp обернута в скрипт run.sh с флагом -v.

Скрипт помогает пользователям на стандартном оборудовании лучше понимать использование ресурсов их системы и планировать развертывание моделей соответствующим образом.