llama.cpp バージョン b9714 は、ストリーミングエンドポイントに "X-Accel-Buffering": "no" ヘッダーを追加し、Nginx によるレスポンスのバッファリングを防ぐことで、Pi コーディングハーネスなどのアプリケーションでのストリーミング問題を解決しました。このリリースには、macOS、Linux、Android、Windows、openEuler 用のバイナリが含まれており、複数のアーキテクチャとハードウェアアクセラレーションオプションに対応しています。
llama.cpp リリース b9714 が X-Accel-Buffering ヘッダーと新しいバイナリを追加
翻訳元 English → 日本語