A versão b9731 do llama.cpp introduz otimização usando std::partial_sort para reduzir a sobrecarga de ordenação de tokens, melhorando o desempenho de 8.555ms para 0.704ms na seleção de top-n de tokens. O lançamento inclui binários pré-compilados para macOS, Linux, Android, Windows e openEuler em múltiplas arquiteturas e opções de aceleração por hardware.