Un usuario evalúa la ejecución del modelo Kimi K2.7 Code de 432GB dividido entre un Mac Studio M3 Ultra y una NVIDIA RTX PRO 6000 usando llama.cpp RPC, encontrando que las velocidades de prellenado mejoran mientras el rendimiento de decodificación permanece en gran medida sin cambios.

  • La velocidad de prellenado aumentó aproximadamente un 14.8% al descargar el 20% del modelo a la GPU.
  • La velocidad de decodificación mostró una ganancia menor del 4.2%, resultando en una mejora total del tiempo de solicitud de aproximadamente 12.3%.
  • La configuración logró una división máxima práctica del 20% en la tarjeta RTX con contexto de 128K antes de fallar con divisiones mayores.
  • El tráfico RPC se midió en aproximadamente 112-113 MiB/s a través de una conexión Ethernet directa, siendo los costos de red más notables durante el prellenado que la decodificación.

El autor concluye que, aunque esta configuración ayuda a ajustar modelos más grandes entre dispositivos, las ganancias de rendimiento están limitadas por el interconexión de red, lo que la hace principalmente útil para capacidad en lugar de mejoras significativas de velocidad.