Todos los artículos
media r/LocalLLaMA · hace 10 d

¿Puedo obtener resultados cercanos a las capacidades de Claude/Codex de forma local?

Un usuario con un sistema de 32GB pregunta si los modelos de peso abierto pueden igualar el contexto de 1M y el rendimiento de codificación de Opus 4.8 en hardware local. Señala que los cuellos de botella actuales son la longitud del contexto y las preocupaciones de privacidad, y cuestiona si modelos de gama alta como GLM 5.2 o Qwen3.7 son viables dentro de un presupuesto de $3.5K, enfatizando que ejecutar modelos de 70-80B ofrece ganancias marginales en el mundo real sobre modelos de 27B con contexto de 256K.

media r/LocalLLaMA · hace 10 d

Aislamiento de la ejecución de código para agentes de IA

Una discusión sobre métodos efectivos de aislamiento para agentes de IA que ejecutan código arbitrario, evaluando contenedores Docker, microVMs, WASM y ejecución a nivel de host. El artículo destaca los requisitos de aislamiento, inicio rápido, control de acceso de red y soporte de sistema de archivos persistente entre ejecuciones, mientras solicita implementaciones compartidas y compensaciones aceptadas.

media r/LocalLLaMA · hace 10 d

Ejecutando MiMo-2.5 en dos Halo Strix

Un usuario informa que ejecuta MiMo-2.5 en dos máquinas de 128GB con procesadores Intel 8060, utilizando contenedores Proxmox y USB4Net para conectividad. La configuración logra un rendimiento de 356pp y 15tg a 1% o con una longitud de contexto de 10k, aunque el usuario cuestiona si esto es viable o de nivel élite. También señala dificultades al compilar vLLM y sglang para hardware de consumo, afirmando que vLLM es poco fiable y sglang está diseñado para centros de datos, no para sistemas personales.

media r/LocalLLaMA · hace 10 d

Observa cómo los LLM locales escapan de las habitaciones que diseñas

Una nueva herramienta permite a los usuarios diseñar entornos estilo sala de escape y observar cómo los LLM locales navegan y escapan utilizando acciones simples. El proyecto, creado para el hackathon 'Build Small' de Hugging Face x Gradio, admite cinco configuraciones preestablecidas de modelos y permite la creación de mapas personalizados con visuales basados en fuentes e importación/exportación JSON. Utiliza un marco 'Pensar luego Actuar' para permitir que los modelos pequeños funcionen de manera confiable en entornos de juegos estructurados.