Todos los artículos
media r/LocalLLaMA · hace 1 h En vivo

Qwen 27B para planificación, Qwen 35B-A3B para ejecución

Un usuario explora el uso de Qwen 27B para la planificación de tareas a largo plazo y Qwen 35B-A3B para una ejecución rápida, señalando que el modelo de 27B funciona a 7-10 tokens por segundo y el de 35B-A3B a ~18 tokens por segundo. El usuario considera alternar entre modelos para aprovechar sus diferentes fortalezas, aunque actualmente usa exclusivamente el 35B-A3B y cuestiona si la brecha de inteligencia entre los modelos es significativa.

media r/LocalLLaMA · hace 1 h En vivo

Resultados actualizados del benchmark de modelos de visión y recomendaciones

Un benchmark revisado de modelos de lenguaje visual locales evalúa 23 modelos en 30 imágenes con 3 pruebas cada una, totalizando 2.070 pruebas y entre 60 y 70 horas de inferencia. El modelo con mejor rendimiento es Qwen3.6 27B (nothink) en Q4 con una puntuación de 79.6, seguido por Qwen3.5 4B (nothink) en Q4, y Qwen3-VL 8B en Q8. Los hallazgos clave incluyen que el modo de pensamiento degrada el rendimiento visual, los modelos MoE tienen un rendimiento inferior en comparación con los modelos densos, y la cuantización Q8 no mejora universalmente los resultados.

media r/LocalLLaMA · hace 1 h En vivo

¿Puedo obtener resultados cercanos a las capacidades de Claude/Codex de forma local?

Un usuario con un sistema de 32GB pregunta si los modelos de peso abierto pueden igualar el contexto de 1M y el rendimiento de codificación de Opus 4.8 en hardware local. Señala que los cuellos de botella actuales son la longitud del contexto y las preocupaciones de privacidad, y cuestiona si modelos de gama alta como GLM 5.2 o Qwen3.7 son viables dentro de un presupuesto de $3.5K, enfatizando que ejecutar modelos de 70-80B ofrece ganancias marginales en el mundo real sobre modelos de 27B con contexto de 256K.

media r/LocalLLaMA · hace 1 h En vivo

Aislamiento de la ejecución de código para agentes de IA

Una discusión sobre métodos efectivos de aislamiento para agentes de IA que ejecutan código arbitrario, evaluando contenedores Docker, microVMs, WASM y ejecución a nivel de host. El artículo destaca los requisitos de aislamiento, inicio rápido, control de acceso de red y soporte de sistema de archivos persistente entre ejecuciones, mientras solicita implementaciones compartidas y compensaciones aceptadas.

media r/LocalLLaMA · hace 1 h En vivo

Ejecutando MiMo-2.5 en dos Halo Strix

Un usuario informa que ejecuta MiMo-2.5 en dos máquinas de 128GB con procesadores Intel 8060, utilizando contenedores Proxmox y USB4Net para conectividad. La configuración logra un rendimiento de 356pp y 15tg a 1% o con una longitud de contexto de 10k, aunque el usuario cuestiona si esto es viable o de nivel élite. También señala dificultades al compilar vLLM y sglang para hardware de consumo, afirmando que vLLM es poco fiable y sglang está diseñado para centros de datos, no para sistemas personales.

media r/LocalLLaMA · hace 1 h En vivo

GLM 5.2 alcanza el 98% de inteligencia máxima con menos de la mitad de tokens

GLM 5.2 demuestra el 98% de su inteligencia máxima en tareas de codificación utilizando menos de la mitad de su presupuesto total de tokens, según un informe técnico de z_ai. La eficiencia de razonamiento del modelo ha mejorado significativamente, con un aumento en el uso de tokens de 16.7k a 36.7k entre GLM 5.1 y GLM 5.2, aunque las configuraciones de alto nivel pueden sobrecargar el rendimiento del hardware local.