Un desarrollador ha lanzado una herramienta HTML offline de un solo archivo que estima qué modelos de lenguaje grandes locales se ajustarán a una configuración de GPU específica y predice su velocidad de generación de tokens. La herramienta está diseñada para responder a la pregunta común sobre si una compilación personalizada de PC puede ejecutar los modelos deseados de manera efectiva, sin requerir un backend ni cuenta de usuario.
- El estimador de capacidad calcula el tamaño residente, el estado de ajuste en VRAM y las velocidades estimadas de decodificación/prefill basándose en el ancho de banda de memoria, calibrado con datos medidos reales de NVIDIA RTX 3090s.
- Los registros de precios incluyen indicadores de procedencia (fuente, estimación o desactualizado) para prevenir errores silenciosos, con cálculos en vivo de impuestos y envío.
- Los usuarios pueden pegar URLs de productos para obtener precios a través de un proxy CORS, con actualizaciones automáticas semanales gestionadas por una GitHub Action.
- La herramienta corrige los modelos Mixture of Experts (MoE) rastreando parámetros activos en lugar de parámetros totales para la estimación de velocidad de decodificación.
- Se incluyen compilaciones de referencia, como un kit inicial de $2.2k con una sola 3090 y un rig de 4x RTX PRO 6000, para ayudar a los usuarios a visualizar configuraciones potenciales.
Esta herramienta ayuda a los entusiastas de la IA local a especificar con precisión el hardware para sus cargas de trabajo de modelos deseados, proporcionando estimaciones de rendimiento calibradas y datos de precios transparentes sin depender de servidores externos.