Desempenho do GLM5.2

Um usuário do Reddit está coletando dados de velocidade de inferência para o checkpoint nvfp4 de 460GB do GLM5.2 da Nvidia a partir da comunidade.

O autor relata executar o modelo a aproximadamente 1 token por segundo em um ambiente de simulação, extrapolando para 75 tokens por segundo em uma máquina MGPU CUDA real.
Os participantes são solicitados a informar primeiro seus tokens por segundo, seguidos de detalhes sobre o mecanismo de inferência e as especificações do hardware.
Um formato de submissão de exemplo inclui configuração de memória, modelo de CPU e velocidades de E/S de disco.