Un modelo gemma-4-26B-A4B ejecutándose solo en CPU con dos procesadores Xeon 6248R logra 64 tokens por segundo de generación y 285 procesamiento paralelo, demostrando un rendimiento viable en hardware de hace 6 años. El usuario destaca el potencial de los LLMs locales optimizados para CPU para rivalizar con sistemas basados en GPU, enfatizando la eficiencia de costos y la accesibilidad.
¿Quién necesita GPUs? Generación de 64 t/s, 285 PP en CPUs de hace 6 años
Traducido del English → Español