あるユーザーは、4090と3090 GPUを搭載したシステムでq6kxlに量子化され、マルチトークン予測を有効にしたQwen 27Bが、デコード速度50〜90トークン/秒、プリフィル速度1500〜2200トークン/秒を達成したと報告しています。このモデルは様々なAPIとのインターフェースが安定しており、シングルページアプリ、LaTeX文書、パーサー、クローラー用の機能的なコードを生成します。

  • モデル: Qwen 27B (q6kxl量子化)
  • ハードウェア: VRAM 96GBの4090+3090システム
  • デコード速度: 50〜90トークン/秒
  • プリフィル速度: 1500〜2200トークン/秒
  • 能力: 既存のスキーマを維持しつつ、それなりの規模のコードベースを取り込み可能。

この構成は、ツールやハーネスの広範なチューニングを必要とせずに、このハードウェア上で信頼性のある一貫性と速度を提供する最初のローカルモデルとして注目されています。