La version b9870 de llama.cpp corrige les boucles du parseur StepFun

Le projet llama.cpp a publié la version b9870, qui inclut une correction pour les longues boucles de raisonnement causées par le parseur StepFun. La mise à jour déplace la logique de troncation des messages avant le rendu afin de gérer correctement les parties de contenu et les espaces blancs.

Corrige les longues boucles de raisonnement en tronquant les messages envoyés au parseur StepFun avant le rendu.
Applique la troncation au texte content_parts, au contenu sous forme de chaîne et à reasoning_content.
Ajoute un test de régression pour les parties de contenu et supprime un modèle dupliqué.
Désactive les builds macOS Apple Silicon (arm64, KleidiAI activé).

Cette version fournit des binaires mis à jour pour macOS, Linux, Windows, Android et openEuler sur divers backends CPU et GPU, garantissant que la correction du parseur est disponible pour les utilisateurs sur les plateformes prises en charge.