Omitir bloques de transformador en tiempo de ejecución con llama.cpp
Una bifurcación de llama.cpp introduce una bandera --skip-layers que permite a los usuarios omitir bloques completos de transformador durante la carga, ofreciendo una alternativa o complemento a la cuantización para ajustar modelos en hardware limitado.