llama.cpp b9873 ने स्पेक्युलेटिव डिकोडिंग में K/V रोटेशन क्रैश को ठीक किया

llama.cpp प्रोजेक्ट ने संस्करण b9873 जारी किया है, जो ग्राफ ऑपरेशन के दौरान एक महत्वपूर्ण assertion failure को संबोधित करता है जब key/value rotation buffer अलॉक नहीं होता है।

ggml_backend_buffer_is_host() को NULL buffer पर कॉल करने से होने वाले abort को ठीक किया गया है जब tensor pointer non-null है लेकिन buffer अलॉक नहीं है।
k_rot/v_rot इनपुट्स को प्रोसेस करने से पहले buffer allocation की जांच के लिए एक guard जोड़ा गया है, जो kq_mask इनपुट्स के मौजूदा checks के साथ संगत है।
DFlash स्पेक्युलेटिव डिकोडिंग के KV-injection pass से संबंधित issue #25191 को हल किया गया है।

यह परिवर्तन उन workflows में क्रैश को रोकता है जो K/V को बिना attending के स्टोर करते हैं, जैसे कि विशिष्ट स्पेक्युलेटिव डिकोडिंग पास, जिससे स्थिर निष्पादन सुनिश्चित होता है।