O projeto llama.cpp lançou a versão b9870, que inclui uma correção para loops longos de raciocínio causados pelo parser StepFun. A atualização move a lógica de trimagem de mensagens antes da renderização para lidar corretamente com partes do conteúdo e espaços em branco.

  • Corrige loops longos de raciocínio ao realizar trimagem nas mensagens enviadas ao parser StepFun antes da renderização.
  • Aplica trimagem ao texto das content_parts, conteúdo em string e reasoning_content.
  • Adiciona um teste de regressão para partes do conteúdo e remove um modelo duplicado.
  • Desativa builds para macOS Apple Silicon (arm64, com KleidiAI habilitado).

Este lançamento fornece binários atualizados para macOS, Linux, Windows, Android e openEuler em vários backends de CPU e GPU, garantindo que a correção do parser esteja disponível para usuários nas plataformas suportadas.