PR do llama.cpp corrige o corte de entrada longa para Step 3.7 Flash

Um pull request no llama.cpp aborda um problema em que o corte da entrada foi implementado incorretamente, o que anteriormente prejudicava o desempenho do Step 3.7 Flash.

A correção visa um bug específico no manuseio de entradas que causava capacidades de raciocínio lentas.
Esta mudança tem como objetivo tornar o modelo utilizável para tarefas que exigem raciocínio extenso.

A atualização é significativa para usuários que evitaram o Step 3.7 Flash devido ao seu mau desempenho em comparação com versões anteriores como o Step 3.5 Flash.