Todos los artículos
media r/LocalLLaMA · hace 1 h En vivo

¿Puedo obtener resultados cercanos a las capacidades de Claude/Codex de forma local?

Un usuario con un sistema de 32GB pregunta si los modelos de peso abierto pueden igualar el contexto de 1M y el rendimiento de codificación de Opus 4.8 en hardware local. Señala que los cuellos de botella actuales son la longitud del contexto y las preocupaciones de privacidad, y cuestiona si modelos de gama alta como GLM 5.2 o Qwen3.7 son viables dentro de un presupuesto de $3.5K, enfatizando que ejecutar modelos de 70-80B ofrece ganancias marginales en el mundo real sobre modelos de 27B con contexto de 256K.

media r/LocalLLaMA · hace 1 h En vivo

Aislamiento de la ejecución de código para agentes de IA

Una discusión sobre métodos efectivos de aislamiento para agentes de IA que ejecutan código arbitrario, evaluando contenedores Docker, microVMs, WASM y ejecución a nivel de host. El artículo destaca los requisitos de aislamiento, inicio rápido, control de acceso de red y soporte de sistema de archivos persistente entre ejecuciones, mientras solicita implementaciones compartidas y compensaciones aceptadas.

media r/LocalLLaMA · hace 1 h En vivo

Ejecutando MiMo-2.5 en dos Halo Strix

Un usuario informa que ejecuta MiMo-2.5 en dos máquinas de 128GB con procesadores Intel 8060, utilizando contenedores Proxmox y USB4Net para conectividad. La configuración logra un rendimiento de 356pp y 15tg a 1% o con una longitud de contexto de 10k, aunque el usuario cuestiona si esto es viable o de nivel élite. También señala dificultades al compilar vLLM y sglang para hardware de consumo, afirmando que vLLM es poco fiable y sglang está diseñado para centros de datos, no para sistemas personales.

media r/LocalLLaMA · hace 1 h En vivo

GLM 5.2 alcanza el 98% de inteligencia máxima con menos de la mitad de tokens

GLM 5.2 demuestra el 98% de su inteligencia máxima en tareas de codificación utilizando menos de la mitad de su presupuesto total de tokens, según un informe técnico de z_ai. La eficiencia de razonamiento del modelo ha mejorado significativamente, con un aumento en el uso de tokens de 16.7k a 36.7k entre GLM 5.1 y GLM 5.2, aunque las configuraciones de alto nivel pueden sobrecargar el rendimiento del hardware local.

media r/LocalLLaMA · hace 1 h En vivo

Problemas de rendimiento de la GPU R9700 con vLLM y configuración multi-GPU

Un usuario reporta graves problemas de rendimiento con sus dos GPUs AMD R9700, que no logran ejecutar vLLM con paralelismo de tensor (tp=2) debido a errores de NCCL. La inferencia con una sola tarjeta muestra un throughput extremadamente bajo: 30 tps para Qwen 0.6B y solo 5 tps para un modelo INT4 AWQ de 27B, a pesar de la correcta instalación de ROCm y la configuración del sistema.

media r/LocalLLaMA · hace 1 h En vivo

Propuesta para dividir modelos base y evitar el reentrenamiento

Una propuesta sugiere dividir la arquitectura del modelo en un modelo base estable y modelos de trabajo ligeros e intercambiables. El modelo base maneja el razonamiento central y actúa como plataforma, mientras que los modelos de trabajo proporcionan conocimiento específico del dominio mediante hot-plugging en tiempo de ejecución, similar a LoRA pero para conocimiento en lugar de comportamiento.

media r/LocalLLaMA · hace 1 h En vivo

Observa cómo los LLM locales escapan de las habitaciones que diseñas

Una nueva herramienta permite a los usuarios diseñar entornos estilo sala de escape y observar cómo los LLM locales navegan y escapan utilizando acciones simples. El proyecto, creado para el hackathon 'Build Small' de Hugging Face x Gradio, admite cinco configuraciones preestablecidas de modelos y permite la creación de mapas personalizados con visuales basados en fuentes e importación/exportación JSON. Utiliza un marco 'Pensar luego Actuar' para permitir que los modelos pequeños funcionen de manera confiable en entornos de juegos estructurados.