github llama.cpp · il y a 12 j · inference

llama.cpp version b9714 ajoute l'en-tête X-Accel-Buffering et de nouveaux binaires

Traduit de English → Français

La version b9714 de llama.cpp ajoute l'en-tête "X-Accel-Buffering": "no" aux points de terminaison en streaming pour empêcher Nginx de mettre en tampon les réponses, ce qui résout les problèmes de streaming avec des applications comme le harnais de codage Pi. La version inclut des binaires pour macOS, Linux, Android, Windows et openEuler sur plusieurs architectures et options d'accélération matérielle.

Importance 0/3 Confiance 2/3 llama.cpp

Lire l'original