github llama.cpp · há 12 d · inference

Lançamento do llama.cpp b9714 adiciona cabeçalho X-Accel-Buffering e novos binários

Traduzido do English → Português (BR)

A versão b9714 do llama.cpp adiciona o cabeçalho "X-Accel-Buffering": "no" aos endpoints de streaming para evitar que o Nginx armazene as respostas em buffer, resolvendo problemas de streaming com aplicativos como a ferramenta de codificação Pi. O lançamento inclui binários para macOS, Linux, Android, Windows e openEuler, abrangendo múltiplas arquiteturas e opções de aceleração por hardware.

Importância 0/3 Confiança 2/3 llama.cpp

Ler original