media r/LocalLLaMA · hace 2 h · fuente: hace 6 d · open_models

Informe de Velocidades de Inferencia Local de GLM 5.2

Traducido del English → Español

Los usuarios que reportan velocidades de inferencia local de GLM 5.2 usando llama.cpp en 6x RTX 3090 con 128GB DDR5 y un i7-13700K logran 7.8 tokens/seg a un tamaño de contexto de 90K con cuantización Q8_0. El procesamiento del prompt ocurre a aproximadamente 40 tokens/seg.

Importancia 1/3 r/LocalLLaMA Zhipu AI Inference efficiency

Leer original