Branch de lançamento criado para v1.38.0
Um branch de lançamento foi criado para a versão 1.38.0. Isso marca o início do processo de lançamento da atualização.
Um branch de lançamento foi criado para a versão 1.38.0. Isso marca o início do processo de lançamento da atualização.
A versão b9669 do llama.cpp adiciona suporte à amostragem de backend para o Eagle3. O lançamento inclui binários para macOS, Linux, Android, Windows e openEuler em várias arquiteturas e opções de aceleração de hardware, incluindo Vulkan, CUDA, ROCm, OpenVINO e SYCL.
O lançamento do llama.cpp b9670 inclui correções para casos de borda NVFP4 no llama-graph, como mover operações MUL pós-GEMM e restringir build_ffn a combinações suportadas. O lançamento fornece binários para macOS, Linux, Android, Windows e openEuler em múltiplas arquiteturas e opções de backend, incluindo CUDA, Vulkan, SYCL e OpenVINO.
llama.cpp release b9667 introduces Vulkan support with S_v=16 via gated_delta_net. It includes binaries for macOS, Linux, Android, Windows, and openEuler across multiple architectures, with options for Vulkan, CUDA 12.4 and 13.3, ROCm, OpenVINO, and SYCL.
A versão b9668 do llama.cpp implementa buffers de memória host-visíveis UMA para melhor desempenho em dispositivos UMA, com base na sugestão de 0cc4m. O lançamento inclui binários para macOS, Linux, Android, Windows e openEuler, suportando CPU, Vulkan, ROCm, OpenVINO, SYCL e HIP, com um pacote UI dedicado.
A versão b9665 do llama.cpp introduz uma nova flag --offline para benchmarking. O lançamento inclui builds binários para macOS, Linux, Android, Windows e openEuler em várias arquiteturas e opções de aceleração de hardware, incluindo Vulkan, CUDA, ROCm, OpenVINO e SYCL.
O lançamento b9663 do LLaMA.cpp adiciona suporte para OP EXPM1 e todos os casos de teste unitário para FLOOR, TRUNC e ROUND. Inclui binários atualizados para macOS, Linux, Android, Windows e openEuler, com suporte para SYCL (FP32 e FP16), Vulkan, CUDA 12.4 e 13.3, e ROCm 7.2, além de uma UI atualizada.
A atualização do sycl estende o suporte ao manuseio de tensores de especialista reordenados no MUL_MAT_ID MoE para Q4_K, Q5_K e Q6_K. Casos de reordenação 3D não suportados agora retornam ao fallback em vez de abortar.
A versão b9661 do llama.cpp adiciona suporte ao GGML_OP_COL2IM_1D para Vulkan, usando um loop de coleta limitado em vez de uma varredura completa-K com módulo. Retorna nullptr para tipos não suportados e inclui builds para macOS, Linux, Android, Windows e openEuler, abrangendo CPU, Vulkan, CUDA e SYCL.