Script para monitorear llama cpp y analizar el uso de memoria

Un usuario ha compartido un script en Bash diseñado para analizar la salida detallada de llama.cpp, proporcionando un resumen claro de los requisitos de VRAM/RAM y las métricas de rendimiento en tiempo de ejecución. Esta herramienta aborda la dificultad de predecir las necesidades de memoria para varias cuantizaciones de modelos agrupando las asignaciones de búfer por función y backend.

Analiza los registros detallados de llama.cpp para extraer los tamaños de búfer agrupados por función y backend.
Muestra estadísticas clave, incluidos tokens por segundo (t/s), tamaño del contexto y tasas de aceptación de MTP.
Genera datos en archivos TSV separados para memoria, estadísticas e información del modelo.
Requiere Linux y espera que el comando llama.cpp esté envuelto en un script run.sh con la bandera -v.

El script ayuda a los usuarios en hardware estándar a comprender mejor el uso de recursos de su sistema y planificar los despliegues de modelos en consecuencia.