llama.cpp संस्करण b9731 में टोकन सॉर्टिंग ओवरहेड को कम करने के लिए std::partial_sort का उपयोग करके अनुकूलन पेश किया गया है, जिससे top-n टोकन चयन के लिए प्रदर्शन 8.555ms से घटकर 0.704ms हो गया है। इस रिलीज़ में macOS, Linux, Android, Windows और openEuler के लिए कई आर्किटेक्चर और हार्डवेयर एक्सेलरेशन विकल्पों पर प्रीबिल्ट बाइनरी शामिल हैं।