El selector de compilaciones GPU offline estima el ajuste y la velocidad del modelo local

Un desarrollador ha lanzado una herramienta HTML offline de un solo archivo que estima qué modelos de lenguaje grandes locales se ajustarán a una configuración de GPU específica y predice su velocidad de generación de tokens. La herramienta está diseñada para responder a la pregunta común sobre si una compilación personalizada de PC puede ejecutar los modelos deseados de manera efectiva, sin requerir un backend ni cuenta de usuario.

El estimador de capacidad calcula el tamaño residente, el estado de ajuste en VRAM y las velocidades estimadas de decodificación/prefill basándose en el ancho de banda de memoria, calibrado con datos medidos reales de NVIDIA RTX 3090s.
Los registros de precios incluyen indicadores de procedencia (fuente, estimación o desactualizado) para prevenir errores silenciosos, con cálculos en vivo de impuestos y envío.
Los usuarios pueden pegar URLs de productos para obtener precios a través de un proxy CORS, con actualizaciones automáticas semanales gestionadas por una GitHub Action.
La herramienta corrige los modelos Mixture of Experts (MoE) rastreando parámetros activos en lugar de parámetros totales para la estimación de velocidad de decodificación.
Se incluyen compilaciones de referencia, como un kit inicial de $2.2k con una sola 3090 y un rig de 4x RTX PRO 6000, para ayudar a los usuarios a visualizar configuraciones potenciales.

Esta herramienta ayuda a los entusiastas de la IA local a especificar con precisión el hardware para sus cargas de trabajo de modelos deseados, proporcionando estimaciones de rendimiento calibradas y datos de precios transparentes sin depender de servidores externos.