La versión b9731 de llama.cpp introduce una optimización que utiliza std::partial_sort para reducir la sobrecarga del ordenamiento de tokens, mejorando el rendimiento de 8.555ms a 0.704ms para la selección de top-n tokens. El lanzamiento incluye binarios precompilados para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y opciones de aceleración por hardware.