Omitir bloques de transformador en tiempo de ejecución con llama.cpp

Una bifurcación de llama.cpp introduce una bandera --skip-layers que permite a los usuarios omitir bloques completos de transformador durante la carga, ofreciendo una alternativa o complemento a la cuantización para ajustar modelos en hardware limitado.

La función implementa poda en tiempo de ejecución evitando la instanciación de las capas especificadas.
Se incluye un mecanismo selector porque la elección de qué bloques omitir impacta significativamente el rendimiento.
Este enfoque permite a los usuarios ejecutar modelos que de otro modo excederían la capacidad de memoria del dispositivo.

Esta técnica proporciona un método práctico para desplegar modelos de lenguaje más grandes en hardware restringido al reducir los requisitos de memoria sin requerir reentrenamiento del modelo.