Usuarios cuestionan la existencia de clasificaciones cerradas frente a abiertas de LLM y el valor de los modelos de 70B-350B

Un usuario de Reddit pregunta si existe un ranking sólido que compare modelos de lenguaje grandes de código cerrado y pesos abiertos lado a lado. Señalan que la mayoría de las evaluaciones disponibles parecen fragmentadas y no abordan las diferencias prácticas entre ejecutar modelos localmente versus utilizar servicios basados en API.

El usuario busca una comparación clara entre modelos de pesos abiertos locales y modelos competitivos solo vía API.
Preguntan si algún modelo de código abierto iguala el rendimiento de GLM-5.2 o Qwen3.6 27B dentro de sus restricciones de tamaño.
El usuario observa que los modelos en el rango de 70B–350B parámetros a menudo requieren aumentos masivos de VRAM sin ofrecer mejoras proporcionales en la calidad del mundo real.

La publicación destaca una necesidad comunitaria de mejores métricas de evaluación para determinar qué modelos realmente valen la pena ejecutar localmente dadas las limitaciones de hardware.