github llama.cpp · há 12 d · inference

Lançamento do llama.cpp b9731: Otimização de Desempenho e Binários Multiplataforma

Traduzido do English → Português (BR)

A versão b9731 do llama.cpp introduz otimização usando std::partial_sort para reduzir a sobrecarga de ordenação de tokens, melhorando o desempenho de 8.555ms para 0.704ms na seleção de top-n de tokens. O lançamento inclui binários pré-compilados para macOS, Linux, Android, Windows e openEuler em múltiplas arquiteturas e opções de aceleração por hardware.

Importância 1/3 Confiança 2/3 llama.cpp Inference efficiency

Ler original